21Yeni ve önemli paradigmaları heyecanlı ve abartılılı iddialar bulutunun arkasına gizlemek aldatıcı reklam balonlarının doğasında vardır. Örnek vermek gerekirse, “büyük veri” ibaresi o kadar yaygın ve başarısız bir şekilde kullanıldı ki, terim adeta anlamını yitirdi. Bununla birlikte büyük veri balonunun altında gerçek bir devrim yaşanıyor ve bu devrim herhangi bir şeyden daha çok Apache Hadoop’un etrafında dönüyor.

Hadoop’un veritabanı yönetimi dünyasında niye bu kadar gürültü kopardığına bir bakalım ve ana akım işletme mimarisinin bir parçası olmadan önce aşması gereken engelleri belirleyelim. Bunu yapmak için veri tabanlarındaki son devrime, bir başka deyişle 1980′lerdeki ilişkisel devrime yön veren etkenlere bakmak faydalı olur.

Son Veri Devrimi

1980′lerin veritabanı devrimi ilişkisel veritabanının (RDBMS) zaferiyle sonuçlandı. İlişkisel form, veri simgelemesi ve depolamasının iyi formüle edilmiş teorik modellerine dayanıyordu. Fakat RDBMS’in sektöre hızlı uyum sağlamasının nedeni yalnızca teorik avantajları değildi. RDBMS modern ticari istihbarat sistemlerinin doğuşuna fırsat tanıyarak, işletmelere tarihlerinde ilk kez üretim sistemlerinde saklanan veriye hızlı erişim imkanı sundu. İlişkisel veritabanı ve görece kolay ve esnek SQL dilinden önce neredeyse her bilgi istemi için bir programlama uzmanı yüzlerce veya binlerce satırdan oluşan COBOL programı yazarak bu istemleri karşılardı. İlişkisel veritabanının ad hoc (parametre sınırlaması olmayan) SQL sorgu istemlerini tanıma özelliği sayesinde, veri tabanı IT elitleri dışındakilere de açılmış oldu. Yönetim bilişim sistemi üzerindeki raporlama (Log jam report) istemleri ortadan kaldırılmış, görece kalifiye olmayan personel de kolaylıkla rapor sorgulayıp, karar verme süreçlerine katkıda bulunmaya başlamıştı.

Hadoop veritabanı yönetimini benzer bir sebeple kökten değiştirmektedir. RDBMS’de saklanmayan, işletmeye ait veri yığınlarının değeriniortaya çıkartmaktadır. Bu veri web günlüklerinden, POS aygıtlarından, sosyal ağlardan ve mobil araçlardan üretilmiş ilişkisel olmayan ve günümüzde kurumlar arasında mümkün olan en rekabetçi farkı yaratan veridir.

1980′lerde ilişkisel model o kadar güçlendi ki neredeyse her satıcı kendi veritabanını, üzerinde durduğu mimari ne olursa olsun, ilişkisel olarak tanımladı. Benzer bir biçimde, günümüzde piyasadaki hemen her veri teknolojisi de “büyük veri” çözümü olarak sunulmaktadır. Gerçek ise, Hadoop’un benimsenme, amaca uygunluk ve yenilenme hızı gibi kriterler bakımından “büyük veri” çözümü sunduğunu iddia edebilen bütün açık kaynak kodlu ve ticari teknolojilerden açık ara önde olduğudur.

Neden Büyük Veri İçin Bu Kadar Yaygara Yapılıyor?

Sayısal depolamanın yapılmaya başladığı ilk günlerden beri veritabanı sistemlerinde yer alan veri hacmi katlanarak artmaktadır. Bu büyümenin büyük kısmı Moore kuralıyla işlemektedir : Sayısal depolanmış veri yoğunluğu her bir ya da iki senede ikiye katlanırken, ekonomik anlamda uygulanabilir olan en büyük veritabanının büyüklüğü de onunla ilişkili olarak artar. “Çünkü biz yapabiliriz” mottosu son jenerasyon boyunca gerçekleşmiş sayısal veri artışının çoğunu açıklamaktadır.

Günümüzdeki “büyük veri” devriminin ardında farklı bir şey yatmaktadır. İnternet devrimine gelene kadar, neredeyse bütün kurumsal veri el ile üretilmekteydi. Çalışanlar online sistemlerde siparişleri girerler, müşteri bilgilerini kayıt altına alırladı. Görevi bilgisayar sistemlerine veri girmek olan profesyoneller için bir zamanlar delgi makinesi operatörlüğü (Key Punch Operator) ya da veri giriş operatörlüğü gibi profesyonel kategoriler vardı.

Günümüzde aktif verilerin sadece küçük bir bölümü çalışanlanlar tarafından elle oluşturulmaktadır. Bunun yerine, verinin büyük çoğunluğu ya müşteriler tarafından ya da ticari faaliyetlerin bir yan ürünü olarak oluşturulmaktadır. Örneğin, müşterilerin web navigasyonu sırasında, online sistem ile etkileşimlerinin bir yan ürünü olarak bir tıklama dizisi (click streams) oluştururlar. Tedarik zinciri sistemleri takip bilgilerini siparişlerin yapılış sırasına göre üretir. Öte taraftan müşteriler ve muhtemel müşteriler Twitter, Yelp, Facebook gibi platformlar aracılığıyla sıklıkla görüş, fikir ve isteklerini internet ortamına iletirler v.b.
Eğer bu ham veri yığınından değerli bilgiyi ayrıştırmak amacıyla bütünüyle rastlantısal olmasa da eşzamanlı olarak geliştirilen yeni teknolojiler olmasaydı, “veri boşaltımı” ve sosyal ağ kirliliği denilen şey pek ilgi uyandırmazdı.

Kollektif Zeka Yapay Zekayı Yeniyor

Büyük veri devriminden önce, yazılım geliştiricileri büyük oranda kural tabanlı uzman sistemler olmak üzere akıllı ve uyarlanabilir sistemler yapmaya çalıştılar. Bu uzman sistemler insan deneyiminden kaynaklanan zekayı yakalayıp taklit etmeye çalıştı. Uzman sistemler tıbbi tanı ve performans iyileştirme gibi alanlarda kısıtlı erişime sahipti ancak dil ayrıştırması, önerilen sistemler ya da hedefe yönelik pazarlama gibi görevlere uygulandığında çok başarısız oldular.
Google’ın başarısı gidilecek yolu tanımladı. Google basitçe daha iyi kurallar kodlayarak değil, aynı zamanda sürekli büyüyen devasa veritabanının geçmiş aramalarının sonuçlarını düzelterek de daha iyi arama sonuçları elde etmiştir. Aynı süre içinde online alışveriş deneyimini kişiselleştiren Amazon, öneri motoru (Recommendation engines) kullanmanın gücünü göstermiştir. Google da Amazon da, giderek artan veri hacimlerinin kullanıcı deneyimini geliştirdiği ve daha fazla benimsenmesine neden olan, hatta daha fazla veri kullanımını sağlayan başarılı bir döngüden faydalanmıştır. Kısacası, “kalabalıkların bilgeliğinin” geleneksel kural tabanlı uzman sistemlerini yendiği keşfedilmiştir.

Amazon ve Google çözümleri kollektif zeka ve machine learning tekniklerinin örnekleridir. Kollektif zeka büyük veri kümeleri kullanarak görünüşte akıllı uygulama davranışları elde ederken, machine learning programları algoritmalarını kendi deneyimlerine göre değiştirir. Google ve Amazon gibi Web 2.0 şirketleri bu büyük veri tekniklerinden faydalanmışlardır. Günümüzde hemen her endüstri sektöründe rekabetçi bir avantaj görüyoruz. Büyük veri ve kollektif zeka teknikleri potansiyel tüketiciyi ürünle daha doğru eşleştirerek satış miktarını neredeyse her segmentte artırabilir. Bu teknikler ayrıca rekabetçi ortamda borcunu zamanında ödeyememiş ya da özel dikkat gerektiren müşteri grubunu belirlemede kullanılabilir. Modern e-ticaret uygulamalarında müşterinin isteklerini göz önünde bulunduran kişisel tecrübeler büyük önem arz etmektedir.

Hadoop Neden İşe Yarıyor

Hadoop esas itibariyle web içeriğinin saklanması ve anahtarlanması (indexing) gerekliliği karşısında, anahtarlardan oluşan bloklar (Key Building Blocks) inşa eden kaynak kodun Google’ın önderliğinde yazılmasından başka bir şey değildir. Başlangıçtan itibaren Google büyük veri diye tabir edilen kavramın en belli başlı özelliklerinden üç tanesiyle baş etmek durumunda kalmıştır; bu özellikler bazen “3V” olarak adlandırılır :

Aşırı yoğunluktaki ve katlanarak büyüyen veri miktarı (Volume – Hacim)
Tahmin edilemeyen, farklı ve yapısal olarak zayıf içerik (Variety – Çeşitlilik)
Veri oluşum oranının hızı (Velocity – Hız)

Google bu sorunu aşmak için dahili disk alanları içinde çok sayıda kümeden oluşan sunucular (server) görevlendirdi. Google Dosya Sistemi (GFS) sayesinde çeşitli sunucular üzerinde dağıtık bulunan bu disklere tek bir dosya sistemi üzerindeymiş gibi erişilebilme imkanı verildi. MapReduce algoritması bu kümelerin üyeleri arasında iş yükünü paralelleştirmeye imkan verecek şekilde oluşturuldu. Pahalı disk yapılarından oluşan SAN ( Storage Access Network) yerine ucuz ticari sunucular içindeki diskleri kullanmayı tercih eden Google çok daha ekonomik ve ölçümlenebilir bir veri depolama mimarisi geliştirmeyi başardı.
Söz konusu Google mimarisini birebir kopyalayan Hadoop, yapısal olmayan veri yığınları için pratik, ekonomik ve olgun bir platform hizmeti sağladı. Hadoop’u alternatif teknolojilerle, özellikle de RDBMS’le karşılaştırmak gerekirse :

Ekonomik: GB(Gigabyte) başına, ciddi bir RDBMS tasarımının arkasındaki yüksek teknoloji ürünü olan SAN depolama sisteminin maliyetinden daha az masraflıdır.
Olgun: Hadoop’un önemli algoritmaları, Google’da saha testinden geçmiş ve büyük miktarda Hadoop kodunun çalışırlığı Facebook ve Yahoo!’da ispat edilmiştir. Hadoop camiası enerjik olmasının yanı sıra, piyasadaki birçok varlıklı ticari tedarikçi tarafından da desteklenmektedir. Özellikle de IBM, Microsoft ve Oracle’ın hepsi standart mimarilerine Hadoop’u entegre etmiş oldukları düşünülürse.
Kullanışlı: RDBMS, kullanılan verinin tablolara yüklenmesinden önce analizini, modellenmesini ve dönüştürülmesini gerektirir. Ayrıştırma (Extract), dönüştürme (Transform) ve yükleme (Load) içerikli bu proje (ETL) pahalı, riskli ve zaman kaybettiricidir. Bunun aksine, Hadoop tabloyu okuma esnasında tanımlayarak (schema on read) veriyi orijinal haliyle kaydeder ve şemanın tanımı veriye erişim ihtiyacı duyulduğu ana kadar ertelenir.

Hadoop elbette bu sayılan faydaları sağlayan mevcut ya da muhtemel tek teknoloji değildir. Ancak bütün kayda değer tedarikçiler Hadoop’u benimseyip bünyelerine katmak adına diğer alternatif teknolojileri geliştirme işinden vazgeçmişlerdir. En önemlisi; Microsoft, IBM ve Oracle standart mimarilerinin içine Hadoop’u entegre etmektedirler.

Büyük Veri Vaatlerinin Yerine Getirilmesi

Hadoop gibi bir teknoloji büyük veri tarafından vaadedilen ticari faydayı tek başına sağlamaz. Büyük verinin bir vaatten daha fazlası olabilmesi için, IT uzmanlarının yeteneklerini geliştirmesine, Hadoop kümeleri içindeki veriyi ortaya çıkaracak yazılım yapısına ve tecrübe edilen büyük verinin disipline edilmesine ihtiyaç duyacağız.

Günümüzde bir Hadoop projesinde en sık rastlanılan durum, istatistiksel analiz ve machine learning konusunda deneyimi olan yetenekli Java yazılımcılarına bağlı olmaktır. Bu yazılımcıların da sayısı azdır ve kolektif akıllı çözümlerin içerdiği karmaşıklık düşünülürse, her zaman az olacaktır. Hal böyleyken, üniversitelerin ders programlarında web tabanlı uygulama geliştirme rutinine daha az yer verilmesi, onun yerine müfredatta MapReduce gibi paralel veri algoritmaları, istatistiksel analiz ve machine learning tekniklerini içeren derslere daha fazla ağırlık verilmesi yerinde olacaktır.
Kalifiye yazılımcıların azlığı göz önünde tutulursa, bağımsız Hadoop MapReduce çatısı üzerinde yer alan yüksek katman soyutlamalar daha önem kazanmaktadır. Hive (Hadoop’un SQL benzeri erişim katmanı) ve PIG (veri akış dili komut dizisi) Hadoop’u daha farklı tipte kullanıcıya ve yazılım aracına açmıştır. Özellikle Hive, Hadoop’un benimsenmesi bakımından çok önemlidir çünkü geleneksel BI ve sorgulama araçlarının Hadoop’la konuşmasını sağlamaktadır. Ne yazık ki Hive SQL dili (HQL), ANSI-SQL uyumlu olmaktan uzaktır. Hadoop camiası ticari anlamda benimsenmenin Hive’ın giderek artan olgunluğuna ne kadar bağlı olduğunu gözardı etmemelidir.
Hive, Hadoop sistemlerini geleneksel veri analizcilerine ve iş zekası araçlarına yayabilir. Fakat yenilikçi bir teknoloji olarak, Hadoop ve büyük veri mevcut teknolojiyle ilişkisini kesmek üzeredir. Hadoop’un biricik faydası, var olan geleneksel iş zekası araçlarıyla edinilemeyecek daha sofistike çözümler sayesindedir.
Basit kümeleşmeler ve geçişler yoluyla elde ettiğimiz veri, öğe boyu ve verinin hacmi öngörülen limitleri aştıkça istatistiksel analiz daha önemli hale gelmiştir. Uzun süreli ticari istatiksel analiz sunan firmalar piyasanın Hadoop’la bağlantısında acele etmektedir ama Hadoop’la kullanılagelen en başarılı araçlardan biri de açık kaynak kodlu R paketi olmuştur. R paketinde, ticari alternatiflerinin sahip olduğu kolay arayüzler veya zarif grafikler yoktur. Fakat açık kaynak kodu lisansı ve genişleyebilirliği sayesinde Hadoop tabanlı büyük veri yığıtlarıyla uyum içinde çalışır.
İstatistiksel analiz yeteneğinin arkasında Google ve Amazon’un orijinal başarısının arkasındaki itici güç olan machine learning ve kollektif zeka alanı bulunur. Apache Mahout gibi açık kaynak kodlu çatılar machine learning için gerekli blokların inşasını sağlar ve kümeleme, sınıflandırma ve öneriler için düşük düzey tekniklerdir. Fakat bu bloklardan bir iş çözümü meydana getirmek oldukça kalifiye yazılım uzmanlarının varlığını gerektirir.
İşletmeler için paket halinde büyük veri çözümleri sağlamak amacıyla kullanılabilecek bu tip çatı uygulamaları sektörde henüz yeni yeni geliştirilmektedir. Kollektif zeka ve machine learning tekniklerini ana akım bilişim sektöründe bir potada eritebilecek yazılım tedarikçisini büyük bir fırsatın beklediği açıktır.

Yaşasın Devrim!

İlişkisel veritabanı yazılım mühendisliğinde bir zaferdir. İlişkisel model 25 yıldan fazla bir süredir veritabanı yönetimini belirlemektedir. Bundan sonrası için de gerçek zamanlı online hareket işlemi (OLTP) ile iş zekası (BI) sistemleri için ana model olmaya devam edecektir.
Öte yandan, günümüzün dijital verilerinin hacmi ve doğası yüzünden tamamlayıcı ama ilişkisel olmayan depolama teknolojilerine ihtiyaç duyulduğu açıktır ve Hadoop bu konudaki öncü markadır. Birçok kuruluş çok yakın gelecekte dijital verilerinin çoğunluğunu RDBMS’ler yerine Hadoop ya da Hadoop benzeri sistemlerde tutacaktır.
Hadoop’un ekonomik anlamda uygulanabilir depolama katmanı olmasaydı büyük veri devrimi asla gerçekleşemezdi. Bu devrim büyük veri teknolojisini ticari kazanca dönüştürecek pratik tekniklere sahip olmadığımız sürece tamamlanmış sayılmayacaktır.
Büyük veri devriminin tamamlanması yeni tür bir bilişim uzmanlığı arzını tetikleyecektir. Umarız bu da yeni bir yazılım öncülüğü dalgasına önayak olur.

Son Yazılar

Mobil Cihaz Yönetimi Nedir?

Mobil Cihaz Yönetimi Nedir?

Bilişim teknolojilerinin yakın geçmişte yaptığı sıçrama ile birlikte mobil cihazların geldiği nokta aslında çok sürpriz olmadı. Konuşma ya da...

Sanallaştırmanın Armonisi VMware

Sanallaştırmanın Armonisi VMware

Soğuk bir kış günü. Saat 02:45. Tarih ise 8 Ocak 2006. Telefonum durmadan çalıyor. Endişeli bir şekilde kalkıyorum. Gözlerim yarı açık yarı kapalı...