hadoop_veri_ambariHangisini Ne Zaman Kullanmalı

Müşterilerin, analizcilerin ve gazetecilerin Hadoop ve MapReduce için en sık sordukları soru şudur : “Hadoop’u ne zaman kullanmalıyım ve veriyi bir veri ambarında ne zaman saklamalıyım ?”

Bu soruya en iyi cevabı son zamanlarda ortaya çıkan büyük veri kaynağına bir örnekle açıklayabiliriz : Akıllı Sayaç.

Akıllı sayaçlar müşterilere ve kamu hizmeti sunan kuruluşlara yardımcı olmak amacıyla bütün dünyada evlerdeki su, elektrik ve doğalgaz kullanımını daha verimli hale getirmek için ortaya çıkmıştır. Tarihsel olarak, sayaç okuyucuları evden eve yürüyüp sayaçları kaydederek, kamu hizmeti sağlayan kuruluşlara fatura işlemlerini rapor ederlerdi. İşçi maliyeti yüzünden pek çok kurum bu işlemi aylık periyoddan üç aylık periyoda çevirdi. Bu da gelirin gecikmesine ve hanelerdeki kullanımın ayrıntılı olarak incelenememesine sebep oldu.

Doğrudan E-posta ve Web Fatura Sunuşu

Sayaç Veri Ödeme ve Tahsilat Müşteri

Yönetimi Sistemi Hizmetleri Sistemi

Manuel Sayaç

Okuma

Kaydetme ve Basit ETL Veri Ambarı Müşteri İlişkileri

Sonuç Yönetimi

Araştırma Verisi

Veri Akışı ve Manuel Sayaç Okuma

CostCutter Hizmetleri adında hayali bir şirket olduğunu ve 10 milyon haneye hizmet verdiğini varsayalım. Fatura işlemleri için üç ayda bir 10 milyon okuma gerçekleştirmiş olsunlar. Yasal düzenlemeler sonucunda ve petrol fiyatlarının tavan yapmasıyla, elektrik kullanımının saatlik kullanımını ölçebilmek için CostCutter akıllı sayaç dağıtmaya başlamış olsunlar. Şu anda akıllı sayaçlardan üç aylık bazda 21.6 milyar sensor okuması gerçekleştiriyor olurdu. Sayaç verilerinin aylık ve yıllık bazda analiz sonuçları enerji tasarrufu kampanyaları, hava durumu örneklemleri, yerel organizasyonlarla ilişkilendirilerek hem müşteriler hem de CostCutter firması için tasarruf fırsatları sağlanabilirdi. Müşterilere akşam 20.00’den sabah 05.00’a kadar kullanımlarında daha ucuz elektrik faturası planı teklif edilirdi. Evlerindeki en yüksek enerji kullanım saatlerini belirleyebilmek için müşteriler akıllı sayaçlarından 5 dakikalık aralıklarla rapor talep edebilirlerdi. 5 dakikalık aralıklarla, 90 günün sonunda akıllı sayaçlar 100 milyardan fazla sayaç okuması gerçekleştirdi. Bu durumda CostCutter firmasının artık büyük veri problemi var diyebiliriz. Veri hacimleri mevcut yazılım ve donanımlarının baş edemeyeceği hızda büyürdü. Böylelikle CostCutter firması gelen sayaç okumalarının üstesinden gelmek için yönünü Hadoop’a çevirirdi.

Doğrudan E-posta,Web ve Ev İçi Görüntüleme

Güç Üreteçleri Akıllı Sayaçlar

Hadoop Sayaç Veri Yönetim Ödeme ve Müşteri

Sistemi Tahsilat Hizmetleri

Sistemi

Kaydetme ve Sonuç Basit ETL Veri Ambarı Müşteri İlişkileri

Yönetimi

Hava ve Araştırma Verisi

Akıllı Sayaçlar Aracılığıyla Her 5 veya 60 Dak. Sayaç Okuması

Hadoop artık verinin dahili sisteme alınması, dönüştürülmesi ve yayınlanmasında anahtar rol oynamaktadır. Hadoop içerisinde çok az programlama gayretiyle, Apache Pig gibi araçlar kullanılarak ileri düzey dönüştürümler uygulanabilir. Ayrıca Hadoop düşük maliyetli bir veri havuzu olduğundan, veri aylar, hatta yıllar boyunca saklanabilir. Hadoop veriyi temizlemek ve dönüştümek için kullanıldığından, veri doğrudan veri ambarına ve ana veri tabanı sistemine (master database management system) yüklenir. Firmaların pazarlama bölümleri hane içi, mahalle, gündelik ve bölgesel kullanım trendlerinin analizi vasıtasıyla tüketicilerin para tasarrufu yapabilmelerine yönelik ek fırsat önerileri geliştirmektedir. Ayrıca artık ev içi sayaçlar tüketicilere kullanım miktarlarını ayrıntılı bir şekilde gösterebilmektedir.

Hadoop’un bir ETL (Extract: Ayrıştır, Transform:Dönüştür, Load:Yükle) aracı olmadığını unutmayınız. Hadoop ETL işlemlerinin paralel olarak çalışmasını destekleyen bir platformdur. Veri entegrasyon satıcıları Hadoop’a rakip değildir; aksine, Hadoop bu firmaların veri dönüştürme modelleri için başka bir kullanım kanalıdır.

İşletmeler daha çok sayıda veri kullanmaya başladıkça, verinin dönüşümü ve analizi için ağ üzerinde taşınması gerçekçi olmamaktadır. Terabaytlık dosyaları bir sistemden diğerine taşımak programcıyı ağ yöneticisinin gazabına maruz bırakabilir. Veriyi işleme sokmak daha anlamlıdır. Bütün büyük veriyi bir depolama bölgesi ağına (SAN : Storage Area Network) veya ETL sunucusuna taşımak büyük veri hacimlerinde uygulanabilir değildir. Veriyi taşıyabilseniz bile, işleme aşaması yavaş ve SAN bant genişliğiyle sınırlı olur ve sık sık toplu iş (batch) istekleriyle kesintiye uğrar. Hadoop’ta ise ham veri düşük maliyetli ticari sunuculara doğrudan yüklenir ve yalnızca daha yüksek oranlı rafine sonuçlar diğer sistemlere aktarılır. ETL işlem süreci kümenin tamamı üzerinde paralel çalışır. Bu, veriyi SAN’dan ETL sunucuları üzerine aktarma işleminden daha hızlıdır. Hadoop kullanılırsa veri her bir dönüşümü için birden çok defa SAN ağından çıkarılıp sonra tekrar SAN’a yüklenmemiş olur. Bu işlem ağ trafiğini azaltır.

Pek çok Hadoop sisteminin veri ambarlarıyla yan yana çalışmasına şaşırmamak gerekir. Bu sistemler farklı amaçlara hizmet ederler ve birbirlerini tamamlarlar. Örneğin:

Büyük bir aracı firma web sitelerini kullanan müşterilerinin tıklamalarından elde ettikleri ham veriyi önceden işlemek için Hadoop’u kullanmaktadır. Bir veri ambarına aktarılan bu tıklama veri dizileri (click streams) müşterilerin tercihleri hakkında çok değerli bilgiler içermektedir. Veri ambarı sonradan bu müşteri tercihleri verisini pazarlama kampanyaları ve öneri motorlarıyla eşleştirerek müşterilere yatırım tavsiyelerinde ve analizlerinde bulunur. Analitik platformlarını kullanarak tıklama veri dizeleri üzerinde analiz araştırmaları yapan başka yaklaşımlar da bulunmaktadır. Ayrıntılar için “MapReduce ve Veri Bilimcisi” bölümüne bakınız.

Bir e-ticaret hizmeti Hadoop’un machine learning özelliğini dolandırıcı satıcıların web sitelerini ortaya çıkarmada kullanmaktadır. Dolandırıcı siteler Hadoop’un öngörücü modeller üretmek için kullandığına benzer örüntüler sergilemektedir. Bu model, örüntünün eşleştiği satış hareketliliğini bulmak için veri ambarına kopyalanır. Bulunduğunda da o tedarikçi incelenir ve satış faaliyetleri durdurulur.

Hadoop ve MapReduce çözümleri işletmelerde ve veri ambarlarında giderek daha fazla kullanılmaktadır. Şekil 3 veri kaynakları, veri paylaşımı ve her iki sisteme erişebilen veri uzmanlarının çeşitliliği üzerine bir bakış açısı ortaya koymaktadır.

Uygulama Ortamı İş Zekası Araçları

Hadoop Bütünleşik Veri Ambarı

Ayrıştır, Dönüştür

Dosya Kopyala Ayrıştır, Dönüştür, Yükle

Sensor Verisi

Web verisi CRM SCM ERP Eski Sistem Üçüncü Parti

Dokümanlar PDF’ler

Resimler Videolar

Ham Veri Dizileri İşletimsel Sistemler

Bir Kuruma Ait Veri Mimarisi

Karmaşık Hadoop işleri veri ambarını veri kaynağı olarak kullanabilirken, iki sistem aynı anda çok büyük paralel işleme yeteneklerinin gücünü birbirlerine aktarırlar. Herhangi bir MapReduce programı SQL komutlarını işleyerek veri ambarına çıkartabilir. Bir anlamda MapReduce programı “sadece başka bir program”, veri ambarı ise “sadece başka bir veritabanıdır”. Şimdi 100 MapReduce programının eşzamanlı olarak 100 veri ambarı düğümüne paralel eriştiğini varsayalım. İkisi de ham veriyi işliyor ve veri ambarı da büyük veri sorunuyla başedebilecek şekilde ölçeklendirilmiş olsun. Vizyon sahibi şirketler rekabetçi avantajlara sahip olmak için gerekli olan bu stratejik adımı eninde sonunda atacaklardır.

Hadoop’un Farkları Nelerdir ?

Hadoop bilgisayar dünyasındaki yeni gelişmelerin ve dağıtık depolama teknolojilerinin sonucu ortaya çıkmıştır. Ticari ucuz donanımları dayanak olarak kullanan Hadoop, bütün dağıtık sistemi kapsayıp tek sisteme dönüştüren bir yazılım katmanı sunmaktadır. Sonuçta, mimaride bazı büyük ayrımlar açıkça görülmektedir:

Hadoop ham veri için bir depo ve rafineridir.

Hadoop güçlü, ekonomik ve aktif bir arşivdir.

Yani Hadoop, büyük ölçekli verinin yaşam döngüsünde her iki uçta da yer alır. İlk başta ham veri doğduğunda ve en sonunda da veri emekliye ayrıldığı halde hala ara sıra veriye ihtiyaç duyulduğunda Hadoop’a görev düşmektedir.

Depolamada ve Veriyi Temizlemede Hadoop’u Kullanmak

Büyük veri hacimleri sensörler, makineler, sosyal medya ya da tıklama dizileri aracılığıyla akmaya başladıkça yapılacak ilk adım veriyi güvenilir ve düşük maliyetli bir biçimde sisteme yerleştirmektir. Veri hacimsel olarak büyükse geleneksel tek sunucu stratejisi çok fazla işe yaramamaya başlar. Veriyi Hadoop Dağıtık Dosya Sistemi (HDFS : Hadoop Distributed File System) üzerine boşaltarak uygulamacılara esneklik kazandırılmış olunur. Onlarca terabaytlık dosya bir günde depolanır, ayrıca Hadoop veri akışının hızlandığı ve durulduğu durumlardaki gereksinimler için konfigürasyon üzerinde ayarlamalara izin verir. Açık kaynak kodu ve ucuz donanımının verdiği güç birleştirilerek gigabayt başına en düşük maliyetle bu işlem gerçekleştirilir.

Veri SAN (Storage Area Network) yerine dahili depoda saklandığından, Hadoop’un veri erişim hızı genellikle daha yüksektir ve ağ terabayt düzeyindeki veri hareketi ile tıkanmamış olur.

Ham veri elde edildikten sonra Hadoop veriyi iyileştirme aşamasına geçer. “Steroid almış ETL motorları” gibi paralel çalışarak manuel veya ticari verinin dönüşümlerini yaparak geliştirir. Karmaşık serbest formlu verilerin yapısal formata dönüştürülürken çözümlenmesi gerekir. Bu özellikle tıklama veri dizileri (veya web günlükleri) veya karmaşık sensör veri formatları için geçerlidir. Dolayısıyla bir programcının sapla samanı ayırıp, gürültü içindeki değerli sinyali tespit edebilmesi gerekir.

Başka bir örneğe bakalım. Web günlüklerinde yer alan her satırda kullanıcının web sitesine hangi işletim sistemi ve internet tarayıcısı ile eriştiğini gösteren bir “kullanıcı öznesi” (user agent) dizesi vardır. ETL sürecinin bir parçası olarak, yapısal olan kolonlar tıklama veri dizisinden ayrıştırılır. Dönüştürüm sırasında, Internet Explorer 6-7-8, Firefox ve az sayıda birkaç tarayıcı tanımlanır. Tanımlanamayan tarayıcılar için tıklama veri dizisi “bilinmeyenler” kategorisine konulabileceği gibi, o alan basitçe “diğer” değeriyle de doldurulabilir. Bir sonraki adımda tıklama veri dizisi veri ambarına yüklenir. iPhone’da bulunan Safari gibi yeni bir tarayıcı ortaya çıktığında, bu kayıtların hepsi “diğer” olarak sınıflandırılır. Birkaç ay geçtiğinde işletim operatörü “diğer” değerinin boyutunun artmasından şikayet eder. ETL uygulamacısı iPhone Safari tarayıcısını tanımlamak için gerekli dönüşümü tasarlamadığı için şu an yeni bir ETL kuralı ilave etmek zorundadır. Ham tıklama veri dizeleri aylardır HDFS’te tutulduğundan, uygulamacı ayrıştırma ve dönüşüm işlemlerini yeniden çalıştırmalıdır. Düzeltilmiş veri buandan itibaren veri ambarına eklendiği için, işletmeci iPhone sahibi kullanıcıların sayısındaki büyümenin getirdiği işletme anlayışına sahip olur. Hadoop geleneksel ETL araçlarının aksine ham veriyi kullanmak konusunda ısrar eder ve onu etkin bir şekilde tekrar işler.

Başka bir örnekte, bir e-ticaret bayisi internet üzerindeki satışlarının grafiksel analizini gösterebilmek için Hadoop’u kullanmaktadır. Bir tüketici kırmızı bir elbise satın almak istemektedir, ancak aramalarının sonucunda her bir ürünün arama kriterlerinde kullanılan etiketlerle kendi girdiği arama kriterleri uyum göstermemektedir. Tüketiciye yardımcı olmak için, Hadoop binlerce elbise resminin analizini yapar ve bunların arasında grafikte (JPG, GIF ve PNG) yer alan nesnelerin öne çıkan özelliği kırmızı olanlarını tespit eder. Bilgisayarın insanın yaptığı gibi elbiseyi görmesi ve ana renginin kırmızı olduğunu algılaması son derece karmaşık bir mantık gerektirir. Üreticiler ürünlerini bayileri için her zaman açık bir şekilde etiketlemezler veya kullanıcının aramak istediği şekilde tanımlamazlar. Bu nedenle yukarıda anlatılan işlem çok gereklidir.

Hadoop’u kullanarak, milyonlarca resim ilave bilgilerle etiketlenir ve tüketiciler bu yönlendirmeler ışığında satın almak için aradıkları ürünlere ulaşma şanslarını artırırlar. Bu tarz bir analiz ve işlemeyi SQL kullanan veri ambarlarında gerçekleştirmek hem zor hem de maliyetlidir.

Yaşayan Bir Arşiv Olarak Hadoop

2003 yılında ACM’den Jim Gray sabit disklere kaset muamelesi yapıldığını iddia etmiştir. Manyetik kaset arşivlerinin emekliye ayrılması daha pek çok yıl alacak olsa da, bugün kasetlerin iş yükünün bazı kısımları halihazırda Hadoop kümelerine yönlendirilmektedir. Bu değişikliğin iki temel sebebi vardır. İlki, ilk bakışta veriyi kaset üzerinde tutmak ucuz bir yöntem gibi gözükse de, gerçek maliyet bilgiye geri erişilmesinde ortaya çıkmaktadır. Verinin çevrimdışı olması bir yana, tekrar veriye erişmek günler değilse bile saatler gerektirmektedir. Ayrıca kaset kartuşları zamanla bozulmaya yatkın olduğundan veri kayıpları oluşmakta, bunlar da maliyete etki ederek şirketleri zorlamaktadır. Daha da fenası, kaset formatları her iki yılda bir değiştiği için kurumların yüklü miktarda veriyi bu yeni kaset formatlarına aktarması gerekir veya veriyi artık devri geçmiş kasetlerden geri indirirken risk alınmış olur.

İkincisi, geçmiş veriyi online ve erişilebilir tutmanın değerli olduğu bilinmektedir. Tıklama veri dizisi örneğinde olduğu gibi, ham veriyi uzun bekleme sürelerinde dönen disk üzerinde tutmak kapsam değiştiğinde ve yeni koşul uygulanması gerektiğinde şirketlerin kolayına gelmektedir. Hadoop’la binlerce diskte arama yapmak, yüzlerce manyetik kasetin dönmesinden daha hızlı ve kolaydır. Ek olarak, disk yoğunlukları her 18 ayda iki katına çıktığından, kurumların uzun yılların birikimi ham veya temizlenmiş veriyi HDFS’te tutmaları ekonomik olarak uygulanabilir hale gelir. Böylece Hadoop’un dağıtık depolama mimarisi ham verinin ön işlenmesinde olduğu gibi, uzun süreli depolanmasında da faydalıdır. Gerçek anlamıyla yaşayan bir arşiv olmasının sebebi sadece veriyi depolayıp koruması değil, aynı zamanda kullanıcılara çabuk, kolay ve daimi veri sağlamasıdır.

Veri Ambarının Farkları Nelerdir ?

30 yılı aşkın bir süredir yapılan yatırım, iyileştirme ve büyümeden sonra bir veri ambarında mevcut özelliklerin listesi oldukça kabarıktır. Şemaları ve bütünleşik iş zekası (BI) araçlarını kullanan ilişkisel veritabanı teknolojisi üzerine kurulmuş olan bu mimarinin temel farklılıkları aşağıdadır:

Veri ambarı performansı

İşletme açısından değerli bütünleşik veri

Son kullanıcılar için etkileşimli iş zekası araçları

Veri Ambarı Performansı

MySQL ya da Postgres gibi açık kaynak kodlu veritabanlarında bulunan temel anahtarlama, sorgu cevap süresini iyileştirmek ya da veri üzerindeki kısıtlamaları kaldırmak için kullanılan standart bir özelliktir. Somut tablo görünümleri (materialized views), kümeleşmiş birleşim anahtarları (aggregate join indexes), küp anahtarlar (cube indexes), aralıklı birleşim anahtarları (sparse join indexes) gibi daha gelişmiş formlar veri ambarlarında performans artışına izin verir. Bununla birlikte, günümüzde en önemli performans artırıcı şey maliyet tabanlı optimize edicidir. Optimize edici, gelen SQL’i inceleyerek her bir sorguyu en hızlı biçimde çalıştırabilmek için birden çok plan üretir. Bunu yaparken SQL istemlerini veri tabanı tasarımı ve veri istatistikleriyle karşılaştırır ve her bir çalışma adımı için en iyi kombinasyonu belirler. Esas itibariyle optimize edici, dahi bir programcının her bir sorguyu inceleyip en iyi performans için ayarlamasına benzer. Optimize edicinin veya veri demografik istatistiklerinin olmadığı durumlarda dakikalar içinde çalışabilecek çok anahtarlı bir sorgu bile saatler sürebilir. Bu nedenle veritabanı satıcıları ürünlerine durmadan yeni anahtar türleri, bellek bölümlemesi, istatistikler ve optimize edici özellikler eklemektedir. 30 yılı aşkın bir süredir her yazılım güncellemesi bir performans güncellemesi olmuştur.

Verinin Entegrasyonu: Varlık Sebebi

Herhangi bir veri ambarının kalbinde zorunlu iş problemlerine cevap olabilme vaadi vardır. Bütünleşik veri, bu amacı gerçekleştiren yegane dayanaktır. Veri ambarlarının varlık nedeni birden fazla konu alanı ve çeşitli uygulamalardan veriyi bir depoya çekmektir. Üst veri, veri temizleme araçları ve sabırla donatılmış veri modeli tasarımcıları ve ETL mimarları verinin anlaşılabilir ve güvenilir olması için veri formatlarını, kaynak sistemlerini ve verinin anlamsal yapısını mantıklı kılmak zorundadır. Böylelikle işletme içerisinde ortak bir kelime dağarcığı yaratılarak “müşteri”, “ay sonu”, “fiyat esnekliği” gibi kritik kavramlar eşit oranda ölçülebilir ve anlaşılabilir olur. Bütün IT veri merkezi sınırları içerisinde, veri ambarında olduğu kadar verinin toplandığı, temizlendiği ve bütünleştirildiği başka bir yer yoktur.

Bunun karşılığında elde edilen ödül bu çabaya gerçekten değmektedir. Örneğin, çok iyi kodlanmış bir ürün envanter konu bölümü düşünün. İşletme şunu sorarak her hafta hayati bir tavsiye sunar : “Her bir lokasyonda kaç tane envanter gelecek ay kullanılmaz olacaktır?”. Benzer biçimde veri ambarında yer alan siparişler konu alanı da şöyle bir soruya cevap verir: “Geri dönen siparişler hangileridir?” Veri modellemesiyle, siparişler bölümü 21 adet teklif sunarken envanter bölümü 25 birincil cevap kümesi (veya rapor) hazırlar. Konu bölümleri tek başına yeterince güçlüyken, birleştiklerinde bu sorulara cevap olacak 74 karmaşık cevap verebilirler. Entegrasyon sırasında, iş zekası kullanıcısı “Mevcut envanter düzeyi bu büyük siparişten nasıl etkilenir?” diye sorabilir. Gün içinde yapılan yüzlerce ya da binlerce sorgu yerine entegre edilmiş konu alan sonuçları, stratejik ticari kararlar verirken daha büyük fayda sağlamaktadır.

Etkileşimli İş Zekası Araçları

MicroStrategy, Tableau, IBM Cognos gibi iş zekası araçları ve diğerleri, işletmenin kullanıcılarını veri ambarı kavramı ile doğrudan buluşturur. İlk olarak, kullanıcı raporu ve karmaşık analizler bu araçlar yardımıyla kolayca ve hızlı bir biçimde oluşturabilir. Bunun sonucu olarak, birçok veri ambarı sitesinde en yeni eğilim son kullanıcı self servis sistemidir. İşletme tarafında bulunan kullanıcılar her zaman IT bölümündeki çalışan kapasitesini zorlayacak sayıda rapor talep edebilirler. Self servis sisteminden daha önemli olan şey, kullanıcının verinin kendisiyle çok yakından ilgili hale gelmesidir. Rapor çalıştırabilir, daha sonra bu raporda bir ölçü ya da filtreyi unuttuklarını fark edebilir, ayarları değiştirebilir ve raporlarını birkaç dakika içinde tekrar çalışır hale getirebilirler. Bu süreç işletme kullanıcılarının işletmeyi ve onun karar verme süreçlerini kavramasında büyük farklar yaratır. Bir kere kullanıcı önemsiz sorular sormayı bırakıp daha karmaşık ve stratejik sorular sormaya başlar. Genellikle, daha kapsamlı ve stratejik raporlar daha çok kazanç ve tasarruf demektir. Bu durum şirket içinde bazı kullanıcıların daha yetkili kullanıcı (power user) olmasına yol açar. Bu nitelikteki personel bir süre sonra iş değeri olan kritik önemdeki bilgiyi verinin bütününden elde ederek yönetim departmanına sunmada adeta birer sihirbaz haline gelirler. Nerede olursa olsun, her veri ambarı 2 ile 20 arasında yetkili kullanıcı istihdam etmektedir.

İş zekası araçlarıyla sorgulama işlemi analitik acı eşiğini düşürür. Eğer bir sorgu sonucu 24 saat sürüyorsa, kullanıcılar sadece tek bir sorgu yapar. Sorgu sonucu dakikalar içinde alınıyorsa onlarca sorgu yapılabilir. Örneğin, büyük bir perakendecinin elindeki stokları gazete kuponuyla reklam yapmak amacıyla karşılaştırdığını düşünün. Başlangıç olarak yüzlerce mağazayı analiz eden sekiz saatlik bir rapor çalıştırılır. Bir yetkili kullanıcı eğer reklam coğrafik bölgelere göre yapılırsa daha çok kar elde edilebileceğini görür. Çeşitli filtreler ve koşullar eklenir ve az sayıda mağazaya sahip bölgeleri seçip sorguyu bu kriterlere göre çalıştırırsa yanıtın gelmesi 2 dakika sürer. Sorguya daha çok koşul ve filtre ekleyip yeniden çalıştırdıklarında, envanter ve bölgesel bazda satışların arttığını ve karın yükseldiğini fark ederler. Sekiz saatlik sorgu şevk kırıcı iken, iki dakikalık sorgular kolaylaştırıcıdır. Bir yetkili kullanıcı birkaç saatini ayırmaya gönüllü olur ve envanter, kar ve en iyi satışı yapılan üründen oluşan karma bir kriterle her bölgeyi analiz eder. Böylece nn düşük acı eşiğine veri ambarı performansı ve etkileşimli iş zekası araçları ile ulaşılmış olur.

Grinin Tonları

Hadoop ve veri ambarının her ikisi üzerinde de çalışabilecek iş yükü problemleri olduğu bilinmektedir. Bu nedenle bir görevi belirlenen zaman süresince en çabuk, kolay ve düşük maliyetle bitirebilecek platformların gereksinimlerini karşılaştırmak en iyisi olacaktır. Her iki teknolojiyi de kullanan veri merkezleri sezgisel olarak “hangisini ne zaman kullanmalı”yı bilebilmek için çeşitli beceriler geliştirmektedir. Hadoop’u şu anda hayata geçiren firmalar Hadoop ve veri ambarı ekiplerini, birbirlerinin platform güçlerini kavramaları için çapraz eğitime tabi tutmak zorunda kalacaklardır.

Veri ambarı ve Hadoop aşağıdaki sınıflandırmalar açısından pek farklılık göstermez. Herhangi bir araç doğru çözüm olabilir. En iyi yazılım geliştirme aracı kuruluşun ihtiyaçları doğrultusunda seçilir. Çeşitli kriterler göz önüne alınarak birden ona kadar bir puan vermek gerekirse, veri ambarı beş alırken Hadoop yedi olabilir, ya da bunun tam tersi olur. Pek çok durumda Hadoop ve veri ambarı bilgi tedarik zincirlerinde birlikte çalışır ve sıklıkla bir araç özgül bir iş yükü için daha idealdir.

Koşullu Veri

Bir veri ambarı için uygun olmayan çok çeşitli koşullu veri kümeleri vardır. Koşullu veri kümeleri analiz edilir ya da bir başına kullanılır. Veri bilimcileri tarafından tanımlanan haliyle bağlantılı, tek bir anı temsil ederler ve birincil değerlerini diğer veri kümeleriyle entegrasyon sonu elde etmezler. Koşullu veri kümelerine örnek olarak astromoni ve fizik verilerinin bilimsel analizlerini gösterebiliriz. Tipik olarak veri bilimcilerinin üzerinde çalıştıkları büyük bir veri kümesi vardır ve sonuçlar elde edildiğinde bu veri bir ay ya da ona yakın bir süre boyunca saklanır. Bu tür bir veri, veri ambarı paradigmasının mantığına terstir. Hadoop bu tarz araştırma projeleri için biçilmiş kaftandır.

Koşullu verinin diğer türleri internet URL’leri ve web sayfalarıdır. Google’ın en başta MapReduce çözümünü tasarlayıp Hadoop’un açık kaynak kodlu olarak doğuşuna sebep olduğu neden buradaki arama anahtarlama problemidir. Arama motoru firmaları web’i yavaş yavaş gezinerek URL, etiket, üst veri ve giden bağlantılar gibi verileri toplamaktadır. Arama motorları bu veriyi kullanarak, URL’leri sıralamak ve anahtarlamak için yoğun MapReduce hesaplamaları gerçekleştirir, böylelikle arama motoru ziyaretçileri her istemleri için en ilgili cevabı elde etmiş olurlar. Buradaki zorluk web sayfalarının ve URL bağlantılarının her gün değişmesidir. Bazı sitelerin 10 bin web sayfası ve bu sayfalar üzerinde sürekli revizyon yapan 12-15 arası web sorumlusu vardır. Dolayısıyla, bir gün taranan sayfalar ve URL’ler ertesi gün kaybolmuş olabilir. Toplanan verinin büyüklüğü göz önünde bulundurulduğunda, yarısının bile birkaç günden fazla saklanması makul değildir. Bu nedenle Hadoop, bu tür problemler için mevcut tek çözümdür.

Aksine, küçük bankaları satın alarak büyüyen bir banka düşünün. Birleşmeden önce yerel bankadan müşterilere ait hesapların bulunduğu manyetik kasetleri alırlar. Bu veriyi ortak müşterileri bulmak için kullanırlar. Karlılığı tahmin ederek uzun dönemli bağlılığa değer biçerler. Bu bilgiyi kullanan alıcı banka adil bir satın alma fiyatı üzerinden pazarlık eder. Fakat bu analizleri yapmak için yalnızca dört haftaları vardır. Bu durum veri modellemesini, yeniden yapılandırmayı ve veriyi veri ambarına getirmek için gerekli olan diğer görevleri zora sokar. Buna ek olarak, satın almadan sonra veri atılacak ve veri ambarıyla tamamıyla entegre edilecektir. Esneklik, zamanın değere göre önemli olması, denetim komiteleri veya yöneticiler tarafından sınırlandırılmaması Hadoop’un avantajları arasında yer alır. Veri ambarı sayesinde ortak müşterilerin hesap numaraları hızlıca belirlenip mevcut hesapların hesap kalitesi karşılaştırılır ve alıcı bankanın hesapları yerel bankanın hesaplarıyla birleştirilir. Hadoop da veri ambarı da bu işin üstesinden gelebildiğine göre, bunların hangisi en iyi platformdur? Bunu, satıcı bankanın gereksinimleri ve hangilerine öncelik verdiği belirler. Bir diğer çözüm de Hadoop’un veriyi depolayıp iyileştirmesi ve ardından daha ileri analiz ve hesap karşılaştırmaları için veri ambarına yüklemesi olabilir.

Sanal Ortamlar ve Veri Laboratuarları

Tarihsel olarak, veri madenciliği (data mining) ve öngörücü analizler (predictive analytics) küçük veri örnekleri üzerinde SAS (Statistical Analysis System) yazılımı kullanılarak yapılagelmiştir. Bu sanal ortamlar (sandboxes) veriyi açığa çıkarmak için veri bilimcileri tarafından kullanılmaktadır. Öngörücü analizler on yıldan fazla bir süredir küçük sunucular üzerinde çalışarak en parlak dönemini yaşamaktadır. Teradata ve SAS birlikte çalışıp SAS yordamlarını (procedures) veritabanı içine eklemişler ve bu yordamları disk verisiyle olabildiğince yakın halde paralel çalıştırabilmişlerdir. Kredi kartı veren bir kuruluş, öngörücü model oluşturma süresini 14 haftadan iki haftaya, analitik model değerlendirme süresini ise 175 saatten 36 dakikaya düşürmeyi başardı. Bu durum birkaç yıl içinde rekabet üstünlüğü oluşturdu.

Veritabanı içindeki analizlerin değeri iki katmanlıdır; ilk olarak, veri madenciliği algoritması paralel çalışarak her gün pek çok araştırma yapılmasını sağlar. İkinci olarak, veri bilimcilerinin küçük veri örneklerine ihtiyacı kalmamıştır. Veri bilimcileri bütün veriyi öğüterek hızlı ve daha doğru sonuçlara ulaşabilirler. Bunlar MapReduce’un Hadoop dahilindeki uygulamalarda sunduğu aynı becerilerdir. Hadoop MapReduce çok büyük miktarda veriye karşılık paralel öngörücü analizler çalıştırır. İkisi arasındaki en bariz fark, veri ambarı temiz entegre edilmiş veriyi depolarken Hadoop’un sıklıkla büyük hacimli ham veriyi içermesidir. Dolayısıyla, veri madenciliğinde Hadoop ve veri ambarı arasında seçim yaparken en önemli kriter verinin kendisidir.

Paralel araştırma yapan analizler veritabanı içinde SAS ile başlamış ve Hadoop’un gelişiyle genişlemiştir. Üniversiteler ve açık kaynak kod toplulukları MapReduce çatısını güçlendiren veri madenciliği algoritmaları geliştirmektedir. Hadoop için geliştirilmiş açık kod kaynaklı machine learning algoritmaları topluluğundan oluşan Apache Mahout projesi buna bir örnektir. Veri bilimcileri bundan böyle herhangi bir denetim komitesi ya da onaylanmış bir teknolojinin limitleriyle sınırlandırılmadan dağıtık bilgi işlem platformuna ulaşmaktadır. SAS da dahil yaygın olan tüm programlama dillerini kullanarak öngörücü analitik çözümler ve modeller geliştirebilirler. Daha da önemlisi, bunu yaparken büyük miktarda ham veriyle keşifler yaparlar. Hadoop’ta veri kümesi üzerinde bir limit söz konusu olmadığı için analizler %5 örneklem yerine ölçeğin tamamında yapılabilir. Bu iki fayda sağlar: Birincisi, analizlerin doğruluğu çarpıcı bir biçimde artar. Bunu sınırlayan tek şey veri bilimcisinin kapasitesi olur. İkincisi, anormallikleri (aykırı değerleri) belirlemek kolaylaşır. Bu da fraud algılama ve risk analizinde önemlidir.

Karmaşık Toplu İş Etkileşimli Analize Karşı

Hangi aracın ne zaman kullanılacağına karar verirken tercih edilebilecek basit bir yol iş yükünün türüne ve kullanıcıya bakmaktır. Pek çok işletme kullanıcısı rapor, gösterge panosu, plansız işler ve tekrarlayan analizler için iş zekası araçlarının gücünden faydalanmaktadır. Online Analiz Süreci’nden (Online Analytical Processing : OLAP) daha açık bir biçimde bunu başka bir yerde göremeyiz. Daha önceden hesaplanmış kestirimlerle işletme kullanıcısı tarihsel raporları düşünce hızında biriktirir. OLAP ikinci bir alt analizdir. Eğer işletmeye etkileşimli self servis analizler gerekiyorsa veri ambarı en iyi çözümdür. Tersine, toplu işler dakikalar içinde çalışır ve kullanıcıyla herhangi bir etkileşim gerektirmez.

Hem Hadoop hem de veri ambarları yüklü miktarda veriyi işlemek üzere karmaşık toplu işler çalıştırırlar. Uygulama karmaşıksa ve ölçeklendirmeyi yapabilmek için paralel çalışması gerekiyorsa Hadoop’u kullanmanın pek çok avantajı vardır. Bununla birlikte büyük ölçekli iş süreçleri gittikçe karmaşıklaşarak bir MapReduce yazılımcısına ihtiyaç duyulur. Tersine, veri ambarlarını kullanan karmaşık uygulamalar gece vardiyasında toplu iş şeklinde çalıştırılır. Bu uygulamalar en az MapReduce programı kadar sofistike olmasına rağmen paralel çalışmazlar. Böylece herhangi bir programlama dili ve karmaşıklık düzeyi ne olursa olsun bir program paralel çalışmayı gerektiriyorsa tercihi Hadoop’tan yana olmaktadır. Uygulamanın paralel çalışmak gibi bir gereksinimi yoksa SQL programlamanın kolaylığı ile birleştirilmiş bir paralel veri ambarı belki de en mükemmel çözümdür. Veri ambarı üzerinde SQL komutları işleyen ve paralel çalışan MapReduce programları ile iki alt sistemin güçleri birleştirilir.

Müşteri Kaybı ve Tavsiye Motorları

Pek çok veri ambarında muhtemel müşteri kayıplarını algılayan bileşenler bulunur ve veri ambarı kullandığı bir tavsiye motoru ile bu müşterileri kalmaları için ikna etmeye çalışır. Tüketici profilleri ve öngörücü analizler sayesinde hazırlanan kişiselleştirilmiş teklifler önleyici tedbir olarak kaçan müşterinin sadakatını kazanmak için karşı tarafa gönderilir. Bu uygulama telekomünikasyon, e-ticaret, perakende, bankacılık gibi müşteri tabanlı herhangi bir kurumda zorunludur. Hadoop müşteri tercihlerini web sitelerindeki tıklama veri dizilerinden bulup ayrıştırmak için idealdir. Şimdiki soru şudur: “Veriyi müşteri tercihleriyle birleştirmek amacıyla veri ambarından Hadoop için çıkartmalı mıyız?” veya “Veri ambarı içine, iş zekası araçlarının operatörleri için Hadoop’tan aldığımız müşteri tercih bilgilerini aktarmalı mıyız?” Cevap işletmenin gereksinimlerine göre değişir. Hadoop ile pek çok rapor, kaçırılan müşteri bilgileri ve tercihleri nihai bir sonuca indirgenir, hatta bazı durumlarda Hadoop bu işlemlerin hepsini yapar. Veri ambarının var olduğu bazı durumlarda, büyük olasılıkla müşteri tercihlerini devam ettiren ve bir kampanya yönetimi alt sistemi kullanarak sadakat ve çok dokunuşlu öneriler sunan sistem tutanakları tutulmaktadır. Bu durumlarda Hadoop’ta temizlenmiş veri, veri ambarı içine aktarılır. Soru o mu bu mu değil, her iki aracı da uygulamanın iş yükünün bir parçası olarak verimli bir şekilde kullanmaktır.

Metin Ayrıştırma ve Madenciliği

Bu bölümde, Hadoop’un bilgi tedarik zincirinde nasıl kritik bir rol oynadığına ve sonuçlarını veri ambarına daha ileri seviye iyileştirmeler yapabilmesi için nasıl aktardığına şahit olacağız. Başlangıç olarak, ilişkisel veri tabanlarının metin ayrıştırmada hiçbir zaman fevkalade olmadıkları ile başlayalım. İlişkisel operatörler bayt işlemleri için uyumlu değildir. Bir tıklama veri dizisi örneği düşünün. Bir metin dizisini parçalarına ayırarak kullanışlı yapısal veriye dönüştürmek için, Hadoop pek çok programlama dili üzerine dağıtım yapabilir. Böylelikle Hadoop metin analiziyle anahtar kelimelerin, blog duyarlılık analizinin, birleşik online yayınların, e-mail vb. gibi bulunmasında başlangıç için iyi bir adım olacaktır. Hadoop metin analiz sistemi değildir. Yani üniversitelerin, açık kaynak kodu depolarının, uzmanların ve patentli satıcıların ontolojiler, endüstri bazlı sözlükler ve duyarlı algoritmalar geliştirmesi gerekir. Hadoop büyük ölçekli bir oyun sahasıdır, her bir düşey endüstri kendi oyuncularını sağlamak zorundadır.

Blog veya e-postalar çoğunlukla metinden oluşmaktadır. Hadoop bu metni düzelttiğinde genellikle veri ambarı içinde depolar. Veri ambarındaki tüketici profiliyle tüketicinin marka ya da ürün duyarlılığının birleşiminden büyük bir artı değer elde edilir. Örneğin, bir tüketicinin yüksek çözünürlüklü TV’leri sevdiğini biliyor ve profilinden de evde yaşayan bir genç olduğunu anlıyorsak, veri ambarı “yatak odası için HD TV” önerilerini ön plana çıkartabilir.

Hangisini Ne Zaman Kullanmalı

Hadoop’un veri ambarına üstün olduğu kullanım alanları olduğu kadar, teknolojilerin her ikisinin de etkili olduğu örtüşen sahalar bulunmaktadır.

Aşağıdaki tablo, gereksinimlerinize göre hangi platformu kullanacağınıza karar vermede yardımcı iyi bir başlangıç noktası olabilir.

Gereksinim

Veri Ambarı

Hadoop

Düşük gecikme, etkileşimli rapor çekme, OLAP

ANSI 2003 SQL uyumlu olması

Ham verinin açığa çıkması ve ön işlemesi

Kasetlere alternatif olarak online arşiv özelliği

Temizlenmiş ve tutarlı yüksek kalitede veri

100 ile 1000 arası eş zamanlı kullanıcı

Veride bilinmeyen ilişkileri keşfetme

Paralel karmaşık süreç mantığı

CPU yoğunluklu analiz

Sistemin, kullanıcıların ve verinin denetimi

Paralel çalışan çok sayıda programlama dili

Kısıtlama ve denetim olmayan sanal ortam

Koşullu verinin analizi

Kapsamlı güvenlik ve mevzuat uyumluluğu

Gerçek zamanlı veri yükleme ve 1 sn’lik taktik sorgular

Platformlara Göre Gereksinim Eşlemesi

Hadoop ve veri ambarı genellikle tek bir bilgi tedarik zinciri üzerinde birlikte çalışacaktır. Büyük veriler söz konusu olduğunda ise, Hadoop sınırsız programlama esnekliğiyle ham, yapısal olmayan ve karmaşık veriyle başa çıkmada veri ambarına göre üstündür. Veri ambarları da iş zekası araçları ile etkileşimli performans gösterip, büyük yapısal verileri konu alanlarına göre entegre ederek yönetirler. Bazı farklar belirgindir. İş yükünün veya verinin hangi ortam üzerinde daha iyi çalışacağını belirlemek işletmenize ve kullanım ihtiyaçlarınıza bağlı olacaktır. En iyi sonucu alacağınızdan emin olmak için platform seçiminden önce bütün işletmesel ve teknik analizleri dikkatli bir biçimde yapmanız gerekmektedir. Hadoop ve veri ambarının ikisine birden sahip olursanız hangisinin ne zaman kullanılacağını öğrenmek herkese büyük kolaylık sağlanmış olur.

Son Yazılar

Sanallaştırmanın Armonisi VMware

Sanallaştırmanın Armonisi VMware

Soğuk bir kış günü. Saat 02:45. Tarih ise 8 Ocak 2006. Telefonum durmadan çalıyor. Endişeli bir şekilde kalkıyorum. Gözlerim yarı açık yarı kapalı...

Mobil Bankacılık Uygulamaları Raporu

Mobil Bankacılık Uygulamaları Raporu

Hepimiz günde en az bir defa müşterisi olduğumuz bankanın mobil uygulamasını kullanıyoruzdur. Üstelik bilgisayarımızdan giriş yaparken olduğu...