hadoopNoSQL destekçilerinin aksi yöndeki iddialarına rağmen, Bilişim Haftaları 2010 Veritabanı Teknolojileri raporuna göre teknoloji liderlerinin % 44′ü Hadoop benzeri NoSQL veritabanlarını hiç duymamışlardır.
Teknoloji liderlerinin Hadoop’u öğrenmek için acele etmelerine gerek yoktur. Ancak NoSQL çözümleri kurumlar için sayısız fayda sağladığından, bu araçların kapasitelerini anlamaya yönelik zihniyet ve becerileri edinmeye başlamaları tavsiye edilmektedir.

Neden Önemsemelisiniz

Günümüzde birçok kurumda veri çok hızlı ve aşırı miktarda büyümektedir. Çok sayıda şirket son on yılda ürettiği veriden daha fazlasını bir yıl içinde üretir duruma gelmiştir. Bahsedilen verinin büyük bir kısmı geleneksel ilişkisel veri tabanı uygulamalarıyla çözümlenemeyecek kadar ham, düzensiz veya karmaşıktır (dokümanlar gibi).

İşletmeler ayrıca şu ana kadar kullandıkları yaklaşımları ölçeklendirirken terabyte, hatta exabytelar büyüklüğündeki veriyi işlemede zorluk yaşamaktadırlar. Elde ettikleri veriden daha fazla kavram/görüş/bilgi elde edebilmek için sürekli yeni araçlara ihtiyaç duymaktadırlar. Hadoop böylece popüler bir seçenek haline gelmiştir.

Bilişim sektörünün duayenleri, hızla büyüyen, karmaşık, yapısal olmayan veriyi yönetmek için kullanılan açık kaynak uygulama çatısı olan Apache Hadoop’u yere göğe sığdıramamaktadır. Hadoop tabanlı uygulama ve hizmet sağlayıcı firma Cloudera’nın 36 milyon dolar fon yardımının yanısıra, sektör dışından çok sayıda teknik olmayan firma da Hadoop’a yatırım yapmaktadır.
Disney, TransUnion ve Google gibi şirketler Hadoop’tan yararlanarak çok büyük, yarı yapısal veya yapısal olmayan veri kümeleri üzerinde yüksek hacimli eşleştirme ve sınıflandırma işlemleri yapmaktadır. Hadoop, fraud algılamadan arama davranışını öğrenmeye kadar pek çok işlev amacıyla kullanılmaktadır.
Şirketler, Hadoop kullanarak bir buçuk saatten fazla süren analiz işlem sürelerinin bir buçuk dakikaya düştüğünü rapor etmektedir.

Hadoop Nedir

Hadoop, Google’ın MapReduce programlama modeline dayalı NoSQL aracıdır. MapReduce paralel çalışan çoklu bilgisayarlar üzerinde çok büyük hacimli yarı yapısal veri kümelerinin işlenmesine olanak sağlar. Böylece veri daha az maliyetle daha hızlı işlenir.

Ne Değildir

Hadoop mevcut veri teknolojisinin yerini almaktan ziyade, bu teknolojiyi tamamlamak üzere kullanılır. Hadoop sık sık güncelleme gerektiren veriyle işlem yapmanın aksine, okuma duyarlı süreçlerde daha iyi sonuç verir. Hadoop özünde toplu iş esasına dayalı çalışır (batch oriented). Bir veri kümesi, işlenmeye başlandığında kolayca güncellenemeyebilir. Yani, gerçek zamanlı işlemler için uygun değildir. Bu yakın bir zaman içinde önemsiz bir konu halini alacaktır, çünkü Yahoo kendisine ait gerçek zamanlı MapReduce kodunun kaynağını açmıştır.
Hadoop veriyi dosyalarda anahtarsız saklar. Bir şeyi bulmak için bütün veriyi okumak gerekir. Bu demek oluyor ki; Hadoop geleneksel veri tabanının yerini alamaz.
Hadoop aşırı tekrarlama gerektiren sorulara cevap niteliğinde bir araç değildir. Programlama modelinin kendisi yeterli desteği vermemektedir.

Esneklik

İlişkisel veritabanlarında, teknik elemanlar önce kolonları tanımlar, sonra bu kolonlara veriyi yükler. Bu veri modeli, kurumların yeni ürün ve çözümleri sunma hızını kısıtlayarak uygulama geliştirme sürecini yavaşlatır.

Hadoop süreci tersine çevirir. Önce veri yüklenir. Okunmaya hazır olduğunda tabloya bakarak sorgu araçlarıyla veri ayrıştırılır. Bu yöntem, bir yapı birimiyle örtüşen kolonların diğer veriden bağımsız ayrıştırılmasını sağlar. Bu yaklaşım, esnekliği artırarak, verinin standartlaştırılması aşamasının gerekliliğini ortadan kaldırarak zaman kazandırır.

Maliyet

Hadoop dağıtık sistemler için tasarlanmıştır. Kurumların en yüksek teknoloji işleyici kümesini en ucuz maliyetle kurmalarına olanak tanır. Hadoop rakip ticari veritabanı kümeleme teknolojilerinin aksine, düşük maliyetli donanımlarla uyum içinde çalışır. Hadoop ayrıca aşağıda şekilde gösterildiği gibi çok sayıda düğüm üzerinde gereğinden çok veri kopyası saklayarak düğüm kırılmasının (Node Failure) üstesinden gelir.

Hadoop Mimarisi

Gelecekteki uygulama programcıları unutmamalıdırlar ki bazı Hadoop uygulamalarında, kümeyi yönetmekle görevli metadata (şekildeki NameNode)’yı tutan bilgisayar kendi başına bir kırılma noktası (Point of failure)’dır ve bunun çözümü için uygun olan hata kurtarma stratejisi (Failover strategy)’nin geliştirilmesi gerekmektedir.

Diğer bir maliyet kalemi de ürünün tedarik edilmesidir. Birçok Hadoop kodu açık kaynaktır ve ücretsiz indirilebilmektedir. Bu nedenle, aracın edinilmesi ve desteğin satın alınması ticari ürünlerden çok daha ucuza malolur.

Karmaşık Veri Analizi

Hadoop klasik veri depolama yöntemlerinden temelde farklıdır. Birçok akıllı işletim yönetiminde, hareket (transaction)’in verisi doğru ve tutarlı olacak şekilde temizlenir, anahtarlanır (indekslenir?) ve sorgular bunun üzerine sistemde programlanır. Bu yaklaşım önemli miktarda zaman ve para yatırımını öncelikli kılar.

Hadoop ile veriyi bir depoya geri getirmek yerine, önce soruya karar verirsiniz. Sonra veri MapReduce işleminden geçirilir ki bu işlemle verinin soruyu cevaplamaya gerekecek kısmı hariç, diğer bölümlerinin anahtarlanmadan (indekslenmeden/unindexed?) ham haliyle tutulabilmesi sağlanır. Bu yaklaşımın başlangıç maliyeti ve riski daha azdır. Aynı zamanda tipik hareketsel veriden daha yapısal olmayıp daha karmaşık olan veri kümelerinin analizinde de yararlıdır.

Dezavantajları

Desteklenebilirlik Hadoop’un bir sorunudur. Teknoloji liderleri Hadoop ile gelişim aşamasına geçmeden bu konuyu düşünmelidir. Araçla gelen ortalama teknik kaynak verimli olamayacaktır. Cloudera, Hadoop’un dağıtım ve yönetim araçları ile ticari desteğini sağlayan tek tedarikçidir.
Hadoop içindeki özelliklerin yalnızca %80′i kodlanmış durumdadır. Hadoop’ta bir işletme sınıf uygulaması (Enterprise Class Application) yazmak isteyen kuruluşlar, onun daha kırılgan ve geleneksel veritabanlarından daha az yönetilebilir olduğunu hissedebilirler.

Güvenlik

Hadoop tasarlanırken mimari anlamında ilk düşünülen unsur veri güvenliği olmamıştır. Daha sonradan eklenmiş olup, mükemmellikten uzaktır. Mevzuat gereği ya da bir ihlal nedeniyle kaybedecek şeyi çok olan kuruluşlar, yatırım yapmadan önce ürünün ihtiyaçlarını gerçekten karşılayıp karşılamadığını ayrıntılı bir şekilde araştırmalıdır .

Olgunluk

NoSQL ve ürünler henüz tam olgunlaşmamıştır. Teknolojik alanda öncülük etmek beraberinde riskleri de getirir. Çok sayıda büyük firma Hadoop ya da NoSQL araçlarıyla atılıma girişmişse de, teknoloji geliştirme sürecinde öğrenilecek çok ders, yapılacak çok hata vardır. Teknoloji liderleri aldıkları riski iyi tartmalı ve kurumlarının deneysel çalışmalara gücünün yetip yetmeyeceğine karar vermelidirler.

Personel

İlişkisel veri tabanı araçlarını kullananlarla karşılaştırıldığında, Hadoop sektöründe uzman ve yeterli personel sayısı çok azdır. İlk uygulamacılar Hadoop araçlarının kullanım ve yönetiminin oldukça zorlayıcı olduğu konusunda hemfikir olmuşlardır. Kuruluşlar Hadoop’un verimli kullanımını sağlamak için eğitime veya yeni kaynaklara yatırım yapmak zorunda kalacaklardır.

Veri büyümeye ve daha karmaşık hale gelmeye devam ettiği sürece, teknoloji liderleri yeni fırsatları görmelerini sağlayacak kavramları işletmelerine daha çok çekme ve getirme noktasında zorluklarla karşılacaklardır. İleri görüşlü liderler mümkün olan ticari fırsatları teknoloji yoluyla oluşturmaya çabalayacak ve Hadoop bu yöntemlerden birisi olabilecektir.

Son Yazılar

Hadoop ve Veri Ambarı

Hadoop ve Veri Ambarı

Hangisini Ne Zaman Kullanmalı Müşterilerin, analizcilerin ve gazetecilerin Hadoop ve MapReduce için en sık sordukları soru şudur : “Hadoop’u ne...

Sanallaştırmanın Armonisi VMware

Sanallaştırmanın Armonisi VMware

Soğuk bir kış günü. Saat 02:45. Tarih ise 8 Ocak 2006. Telefonum durmadan çalıyor. Endişeli bir şekilde kalkıyorum. Gözlerim yarı açık yarı kapalı...

Hadoop ve Büyük Veri Devrimi

Hadoop ve Büyük Veri Devrimi

Yeni ve önemli paradigmaları heyecanlı ve abartılılı iddialar bulutunun arkasına gizlemek aldatıcı reklam balonlarının doğasında vardır. Örnek...