Veri analizi; kalem kâğıt, basit hesap tablosu yazılımları ve klasik veri tabanı üzerine kurulu uygulamalarının boyunu aştı. Büyük veri kavramı birçok farklı kullanımı olan bir tabir fakat çok basit kavramlar üzerine inşa edilmiş durumda. O kadar yayıldı ki bu konuda gündelik hayatımızdan örnekler bile verebiliyoruz.
Şu an büyük bir araştırma şirketinde çalışmakta olan sektörün önemli isimlerinden Doug Laney büyük verinin tanımını bundan 13 sene evvel “hacim, hız ve çeşitlilik” sacayakları üzerinden yapmış. Bugün bu temel tanım hala geçerli ve büyük veri uygulamalarının önündeki en önemli çalışma alanları olarak karşımıza çıkıyorlar.
Büyük verideki hacim, üretilen verinin miktarını belirtiyor. Hacim derken hem sunucular ve kullanıcılar arası akan yapıya sahip veri hem de internet üzerindeki sosyal medya, haberler, yorumlar veya diğer kalıpsız biçimde duran insan girdisini kapsayan bir kavramdan bahsediyoruz. Bu durumda verinin uçsuz bucaksız olduğunu düşünebiliriz. Elbette tek sınır, bir istihbarat servisi değilseniz, ilgilendiğiniz alandan ibaret. Haklısınız, bu bile yeterince büyük bir sınır.
Bu hacimdeki veriyi saklamak birkaç megabyte boyutlarındaki sabit disklerin bilgisayar parasına satıldığı 25 sene evveline göre çok daha ucuz. Veri deposundan ucuz bir şey artık yok. Zaten o nedenle ayda 5 dolar verdiğiniz barındırma hizmeti size kısıtlı bant genişliği ama GB cinsinden çift haneli alan sağlıyor. Hatta istihbarat servislerinin şu an için kırılamayan kriptolu veriyi bile depoladığı, bir şekilde tasnif ettiği; ileride teknoloji yeterince ilerleyince tekrar içeriğine erişmeye çalışacağı gibi duyumlar var. Evet, depolama konusunda sorun yok.
Hız konusu ise verinin üretilme frekansıyla ilgili. Her bir işlem, her bir kullanılan hashtag, her arama sonucu, sokaktan geçen her arabanın plakası, her bir kredi kartı ekstresi, yayınevinin sattığı her kitap kopyası… İlgi alanının hızına göre saniyede trilyonlarca megabyte’tan yılda birkaç GB’a kadar değişen aralıkta bir üretim hızı olabilir. Verinin hızı işlem gücüyle doğrudan ilintili bir kavram. İster gerçek zamanlı veri analizi yapılsın isterse de sadece tasnif edilip sonrasında asenkron analiz yoluna gidilsin burada büyük veri kavramının önündeki engel veri işleme hızı yani işlem gücü yetersizliği olabilir. Bu tür sorunlar tek noktadaki bir iş istasyonundan sunucu çiftliklerine (server farm) kadar gayet ölçeklenebilir seviyelerdeki çözümlerle halledilebilecek konulardan bir tanesi. Tabii ki maliyeti artıran önemli bir nokta olduğunu da belirtmek gerekiyor.
Büyük verideki zorlu ayaklardan bir tanesi de çeşitlilik kavramının ardında yatan karmaşık yapılardır. Çeşitlilik konusu, belirgin yapısı olan ve olmayan veriyi bir arada tutmak, ilişkilendirme ve analiz etmek olarak özetlenebilir. Buradaki en büyük mesele farklı kaynaklardan gelen ve yapısal olarak uyuşmayan, hatta belirli bir yapısı olmayan (mesela, şirketinizle ilgili atılan tweetler) ve anlamsal değerlendirmeler içermek zorunda olan (makinelerin çok iyi karar mekanizmalarında bile zorlandığı bir konu) verileri ilişkilendirmek ve değerlendirmek olarak karşımıza çıkıyor.
Çeşitlilik, kaynakların özgünlükleri ve büyük verinin çevresine inşa edilmesi planlanan uygulamanın temelindeki klasik veri tabanı anlayışıyla tutulan verinin göbeğinden uzaklaşıldıkça ortaya çıkan işlenmesi ve sistematik bir şekilde bir tabana oturtulabilmesi sorunlarıyla ilerleyen bir kavramdır. Özellikle de işin içine çoklu ortam girdiğinde, akıllı algoritmalara ihtiyaç duyan ve büyük veri kavramının genişlemeye en çok açık kısmı olduğunu söylemeliyiz. Örneğin şirketinizle ilgili televizyonda yayınlanan bir haber, haber öncesi ve sonrası reklamların rakipleri içerip içermediğinin değerlendirilmesi veya radyodaki spikerin ses tonunun analizi sonrası olumlu veya olumsuz vurguların dikkate alınması gibi uçuk kaçık noktalara kadar gidebilen bir konu yelpazesine merhaba diyeceğimizi düşünebiliriz.
Büyük veri istediğimiz kadar, yeteneğimiz ölçüsünde genişleyebilecek ve işlem gücümüz kadar bize hizmet edebilecek bir kavram. Veriyi kenara atıp çürümeye terk eden yapılar yerine, iş analizini yapabilir şekilde onları tasnif edip değerlendirme döngülerine soktukça, hizmet yaratıldığının bilicindeki yapıları kuran insanlara ihtiyacımız sürekli artıyor. Geçmişi değerlendirmek güzel bir şey ama yeterince veri olursa ve bunları makul şekillerde işleyebiliyorsak geleceği de tahmin etmeye başlayabiliyoruz. Böylesine geniş perspektiften bakınca elimizdeki veri büyüdükçe yarını değil gelecek seneyi bile bugünden planlamamak için hiçbir sebep kalmıyor.