bigdata2Geleneksel iş zekası (BI) ve veri ambarı (DW) piyasalarında süregelen büyük veri teknolojilerinin özgül kullanım sahalarının belirlenmesinin bazı durumlarda zor olduğu hakkında iş çevrelerinde tartışmalar yürütülmektedir. Buna karşılık benim görüşüm Hadoop benzeri büyük veri teknolojilerinin BI platformunuza yarar getirebileceği yönündedir. Gerçekten de büyük veri teknolojisi kullanan birçok saha hala geliştirilmeye devam etmektedir. Bununla birlikte,  mevcut ETL’lerin (extract, transform and load of the data) yerini alan ya da sayısını artıran, Hadoop’u veri gösterimi veya işletimsel veri depolama (ODS) mimarisinde kullanan uygulamaları, her geçen gün daha çok görmekteyim. Teknik anlamda karmaşık içeriğe sahip başlıkları her inceleyişimde olduğu gibi bu blogun ortaya çıkmasında da kollektif olarak yaptığı yardımlar ve görüşleri için Dr. Pedro DeSouza’ya teşekkür etmek isterim.

Hadoop’un Veri Gösterimi ve İşletimsel Veri Depolama’da (ODS) Kullanımı

BI/DW ekiplerinin Hadoop’u birçok müşteri projesinde mevcut ETL ve veri gösterim süreçlerini basitleştirmek, hızlandırmak ve iyileştirmek adına kullanmak istediklerini biliyorum. Hadoop’un ETL ve veri gösterim işlemlerinize en az iki adet çok önemli katkısı bulunmaktadır. Bunlardan ilki, sözkonusu çok büyük hacimde veriyi olduğu haliyle içinde barındırmasıdır. Bu teknik, veri şemasını önceden tanımlamaya gerek kalmadan Hadoop’a yükleyebilmek demektir. Bahse konu veriler, geleneksel hareket verileri (pos hareketleri, kayıtların ayrıntıları, genel muhasebe kayıtları, çağrı merkezi hareketleri) olabileceği gibi, yapısal olmayan dahili veriler (müşteri yorumları, doktor notları, sigorta tazminat talebi formları, web günlükleri) ya da harici sosyal medya verileri (LinkedIn, Pinterest, Facebook ve Twitter) de olabilir. Gelen verinizin yapısına bakmadan, olduğu haliyle ve hızlı bir şekilde Hadoop’a yükleme yapabilir ve indirdiğiniz bu veriyi ETL, DW ve analiz işlemlerinizde kullanabilirsiniz.

Hadoop’ta İşletimsel Veri Deposu/Veri Aşaması

Hadoop’un BI/DW mimarinize ikinci önemli katkısı ise veriyi Hadoop ortamınıza aktardığınızda ortaya çıkar. Veriyi bir kere Hadoop ODS’nize (Operational Data Storage) aldığınızda, Hadoop’un doğal paralelleştirme yeteneğine dayanarak büyük ölçekteki verinin temizleme, normalleştirme, sıraya dizme ve kümeleştirme gibi ETL işlerini, EDW’niz (Enterprise Data Warehouse) içinde yapabilirsiniz.
Pentaho, Talend, Datameer gibi pek çok ETL tedarikçisi, ürünlerini sorunsuz bir şekilde paralel çalışan MapReduce ETL işleri yaratmak için dönüştürmektedirler. Bu tedarikçiler, veri bütünleştiricisine ya da yazılımcıya kolaylık sağlamak amacıyla karmaşıklığı ortadan kaldırmak için sürükle ve bırak (drag and drop) tarzı kullanıcı arayüzleri (user interfaces) geliştirmektedir.
Ham veri Hadoop ortamına aktarıldıktan sonra, yazılımcılar Hadoop’tan önce kolay olmayan veri dönüşümlerini ve zenginleştirmeleri yapabilirler:
EDW’ye daha sonradan entegre edilecek boyut duyarlı önemli veriyi (ziyaretçi kimlik no, oturum kimlik no, site kimlik no, reklam gösterim no, reklam gösterim lokasyonu) gibi bilgileri karmaşık ve yapısal olmayan girdilerden (müşteri yorumları, web günlükleri ve Twitter girdileri gibi) ayrıştırır. Örneğin, müşterileriniz hakkındaki sosyal medya verilerini onların ilgi alanlarını, tutkularını, bağlı oldukları kurum ve kuruluşları bulabilecek ve daha sonra bu yeni müşteri bilgilerini CRM sisteminizde titizlikle korunan müşteri verilerine entegre edebilecek olsanız ne gibi ticari olanaklara sahip olabileceğinizi bir düşünün.
Günler, haftalar, hatta aylarınıza mal olacak ileri seviye kompozit ölçüler yaratır. Bu kompozit ölçülerin bazılarından bir önceki blogda bahsetmiştim, ancak Hadoop ortamında sıklık (Frequency), yakınlık (Recency) ve sıralama (Sequencing) gibi ölçülerin oluşturulması geleneksel ETL’nizle yapamayacağınız kadar kolaydır. Bu kompozit ölçüler, daha ayrıntılı ve karmaşık analizleri yapmada faydalı olan performans belirleyici anahtar belirteçler veya öngörücülerdir.


Veri Ambarınızı Hadoop’la Beslemek

Yeni müşteri verisi ve iş ölçümlerinin yapısal olmayan verileri ayrıştırıldıktan sonra yeni komposit ölçü verileri zenginleştirilir. Hadoop ODS’nin çıktısı olan veri bundan sonra standart EDW’nizi besleyebilir. Hadoop ODS, EDW’nizdeki mevcut hareketsel ve yapısal verinizle sonradan entegre edilebilecek yapısal olmayan verinin yapısını oluşturma avantajına sahiptir.


Veri Ambarınızı Hadoop’la Beslemek

Hadoop’un büyük çapta ölçeklenebilirliği ve çok fazla miktarda veriyi kısa sürede sisteme dahil edebilmesi nedeniyle, geleneksel ETL işlemlerinizi önemli ölçüde hızlandırabilir ve EDW SLA(Enterprise Data Warehouse Service-Level Aggregement) görevlerinizi daha kolay yerine getirebilirsiniz. Hadoop veri hareketi ya da olayın oluşma zamanı ile verinin EDW’nizde kullanılabilir hale gelmesi arasındaki gecikme zamanını kısaltır. Bunun yanı sıra EDW’niz MPP (Massively Parallel Computing) mimarisinde (bu mimaride indekslere, kümeleşmiş tablolara ve sorgu sonucu görünümlere daha az ihtiyaç duyulur, dolayısıyla EDW’ye veri yükleme ve yönetimsel işler için gerekli zamandan daha çok tasarruf edilir) ise bu etkiyi daha fazla hissedersiniz.


Analitik Sanal Ortam’ınızı (Analytic Sandbox) Hadoop’la Beslemek

Hadoop’un ODS’iniz analitik sanal ortamınızın genellikle gerektirdiği kendi ihtiyaçlarını karşılayan, hızlı ve sık tekrarları etkilemesi sonucu ortaya çıkan üçüncü aşamasıdır. Bu ortamda, gerekli tüm bilgiler veri uzmanları tarafından EDW ortamını etkileyeceği kaygısı taşımadan Hadoop ODS’sinden elde edilir. Veri analizcileri bu sonuçları oluşturmak, test etmek, iyileştirmek ve yayınlamak için gereken bilgiyi, istedikleri veri kaynağından istenilen taneciklik seviyesinde seçebilirler.


Analitik Sanal Ortamınızı Hadoop’la Beslemek

Veri analizcileri analitik bakış açısının gerek görülebildiği durumlarda Hadoop ODS vasıtasıyla EDW içinde asla yolunu bulamayan veriyisaklayabilir ve bu veriye erişebilir. Örneğin, veri analizcileri analitik modellemeyi iyileştirmek için, büyük miktarda sosyal medya veya web günlüğü verisi ile geniş çeşitlilikte kullanıma hazır üçüncü parti (third-party) veriyi (data.gov’dakiler gibi) saklamak isteyebilirler. Veri analizcileri Hadoop ODS’den edindikleri bu veriyi mevcut analitiksel ihtiyaçları doğrultusunda istedikleri zaman kullanırlar.


Hadoop’un Gücünün ODS Olarak İşletme İçinde Örneği

EDW’nin yetersiz kaldığı noktalarda adoop’un ODS ortamının talep edilen istatiksel çeşitliliği nasıl desteklediğini şöyle bir inceleyelim.
Geçtiğimiz yıllarda Tayland’da bir çok üreticinin tedarik zincirlerini derinden etkileyen bir sel felaketi meydana gelmişti. Şirketin finans müdürü BI ekibinden bu felaketin çeyrek dönemlik kazanç payı üzerindeki tahmini etkisini bulmalarını istedi. İşin kötü yanı, BI ekibinin bunu yapmak için sadece 3 haftasının olmasıydı. Bu tip bir analitik istek analitik sanal ortam için mükemmel bir örnek oluşturur, çünkü :
Analiz ekibinin hızlı bir şekilde farklı veri kaynaklarına (hem ayrıntılı yapısal veri hem de web günlüğü ve medya kaynaklı veri) erişim ihtiyacı ortaya çıkacaktı. Analizler analiz sürecine devam ederken ihtiyaç duyulan veri istekleri (üçüncü parti piyasa verisi, yerel ve ekonomik veri ve hava durumu bilgisi gibi) hızlıca değişebilecekti.
Bu veri gruplarının birçoğu DW içinde yolunu bulamazken, veriyi ihtiyacı halinde analiz süreçlerine entegre eden, hızlı erişim imkanı sunan ve olduğu haliyle saklayan bir depolama ortamına ihtiyaç duyulduğu ortaya çıktı.
Analizcilerin birçok olasılığı hesaplayan ama kesin olmayan bir cevap üretmeleri gerekti.
Bu bir kez olan ve bir daha tekrarlanmayacak bir istekti ve bu analitik istek için tekrar eden süreçler meydana getirmek gerekmiyordu.

Bu örnek için, analiz ekibi sadece kendi tedarik zinciri verilerini değil, kendilerine üretim yapan en büyük 25 tedarikçinin de verilerini (%90 kendi bileşenleri ile %100 Tier 1 bileşenleri) istediler. Ayrıca dahili üretim sisteminden elde ettikleri müşteri, envanter, sipariş, satış ağı, üretim ve üretim fatura bilgisini bir araya getirdiler. Bu veriye hava raporu tahmini, trafik ve yol bilgileri, yerel destek bilgileri gibi üçüncü parti veriler eklenerek  bilgi zenginleştirildi.

Bütün bu veri Hadoop ODS ortamında saklanarak veri analiz ekiplerinin veriye ihtiyaç duyacakları zamanı bekleyebilirdi.
Analiz ekibi bu modeli yaratarak aşağıdaki sorulara cevap üretmiştir :
Hava tahmini, yerel destek ve trafik sorunları, tedarik zinciri problemini daha da şiddetlendirecek mi ?
En çok hangi ürünlerimiz piyasada bulunmamaktadır ? (Not : Bu problemin çözümü, tedarikçilerin kendi tedarik zincirlerine bakıp bütün tedarik zincirindeki ortak alt ara malın belirlenmesini gerektirir.)
Ara malların eksikliğinden üst düzey müşterilerimizin hangileri en fazla etkilenmişlerdir?
Maliyet fiyatı/satış fiyatı arasındaki farka bakılarak satış ağı içerindeki en karlı ürünler nelerdir ?
Mevcut ürünlerimizi en önemli müşterilerimizle en iyi biçimde nasıl eşleştirebiliriz ?
Hisse başına düşen kar payının %95 güvenirlik seviyesinde olmasının nasıl etkileri olur?
Sonuç incelendiğinde,  analiz ekibi finansal operasyon müdürüne hisse başına kazanç (EPS) etkisini (%95 güvenirlik seviyesinde) vermekle kalmadı, aynı zamanda mevcut envanterin paylaşımını optimize ederek EPS’nin etkisini azaltmak için görüşler öne sürdü.
Bu arada, analiz tamamlandıktan sonra analiz ekibi analizleri paketledi ve arşive kaldırdı. Böyle bir durumun kısa zaman içerisinde tekrar meydana gelmesi zor olmakla beraber, çeşitli uyum süreçleri ve muhtemel yasal sebepler dolayısıyla böyle bir yol tercih edilmiştir.

Görebileceğiniz üzere, Hadoop’u ODS ortamınızda ve veri gösterimi bölümünde kullanarak yeni ve çok güçlü iş kazanımları (mevcut ETL sisteminizden muhtemelen daha ucuz ve becerikli olduğunu söylemeye bile gerek yok) elde edersiniz. İş zekası ve veri ambarı projelerimizin içinde Hadoop’un kullanımının daha çok artmasını umuyorum. Maliyet kazançları, işlem gücü, veriye erişimde daha düşük gecikme zamanı ve bütününde yer alan daha basit mimariyle Hadoop göz ardı edilemeyecek kadar inandırıcı gözükmektedir.

Son Yazılar

Hadoop ve Veri Ambarı

Hadoop ve Veri Ambarı

Hangisini Ne Zaman Kullanmalı Müşterilerin, analizcilerin ve gazetecilerin Hadoop ve MapReduce için en sık sordukları soru şudur : “Hadoop’u ne...

Hadoop ve Büyük Veri Devrimi

Hadoop ve Büyük Veri Devrimi

Yeni ve önemli paradigmaları heyecanlı ve abartılılı iddialar bulutunun arkasına gizlemek aldatıcı reklam balonlarının doğasında vardır. Örnek...