Teknolojinin ilerlemesi ve internetin gelişmesi ile beraber günümüzde bilginin gücü de ön plana çıkıtı ve bununla beraber internet dünyasındaki birçok olgu 'Bilgi Çöplüğü' olarak anılmaya başladı. Bu çöplükten anlamlı verilerin de çıkabileceğini düşünen yazılım şirketleri, AR-GE çalışmalarını bu anlamda yürüterek Big Data olarak isimlendirdiğimiz olguyu ortaya çıkarttılar.
Big Data(Büyük Veri) olarak isimlendirdiğimiz bu olgu, diskte çok fazla yer kaplayan veri çağrışımı yapsa da aslında tam olarak böyle değil. Big Data, sosyal medya paylaşımları, fotoğraf arşivlerimiz, sürekli kayıt aldığımız 'log' dosyaları gibi farklı kaynaklardan elde ettiğimiz tüm bu verilerin anlamlı ve işlenebilir hale dönüştürülmüş biçimidir.
Günümüzde veri tabanı uzmanları, aralarında ilişkilendirilen mevcut verileri ilişkisel veri tabanlarında (relational databases) yapısal biçimde sınıflandırıyorlar. Şirket yöneticileri de bu veri tabanlarında çalışan raporlama sistemleri aracılığıyla üretilen raporlar sayesinde kararlar alıyorlar. Fakat bu ilişkileri tam anlamıyla sağlayamayıp, sınıflandıramadığımız çok daha fazla veri kümeleri de mevcut. Şimdiye kadar tüm bu bilgiler bilgi çöplüğü olarak isimlendiriliyordu, çünkü bu verinin kullandığımız veri tabanlarında tutulması ve raporlama sistemlerinde kullanılması çok zordu.
Yakın tarihe kadar mevcut veri, belirlenen sayısal ya da sözel kompartımanlarda, tasarlanmış tablolarda muhafaza edilmekteydi. Ama artık, bir müşterinin facebook üzerindeki paylaşımlarını takip etmenin gerektiği durumlarda müşterinin resim, müzik ve video gibi verilerinde kullandığımız raporlama yazılımları ile ilişkilendirmenin zor olduğu veri tipleri dahil olmaktadır. Günümüzde artık, tüm bu verilerin kullanılması ihtiyaç haline geldi. Kısaca, amacımız bilgi çöplüğünden işimize yarayabilecek değerli veriler ortaya çıkarmak haline geldi.
Big Data'nın (Büyük Veri) oluşumunda 5 bileşen vardır. Bu bileşenler sırasıyla; variety, velocity, volume, verification ve value'dir. Genel olarak 5v şeklinde adlandırılmaktadır.
Variety (Çeşitlilik): Üretilen veriler genel olarak yapısal olmadığı ve birçok farklı ortamdan elde edilen veri formatlarından oluştukları için bütünleşik ve birbirlerine dönüştürülebiliyor olmaları gerekmektedir.
Velocity (Hız): Big data üretimi her geçen gün hızına hız katmakta ve bu veriler saniyede inanılmaz boyutlara ulaşmaktadır. Hızlı büyüyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu ortaya çıkartmaktadır ve hem yazılımsal hem de donanımsal olarak bu yoğunluğu kaldırabilmeliyiz.
Volume (Veri Büyüklüğü): Büyük veri olarak isimlendirdiğimiz verilerimiz her geçen gün hızına hız katarak artıyor olabilir, haliyle gelecekteki durumlarımızı da ön plana koyarak ileride bu veri yığınları ile nasıl başa çıkacağımızı iyi düşünmemiz ve planlarımızı bu doğrultuda yapmamız gerekmektedir.
Verification (Doğrulama): Bu kadar hızlı büyüyen verilerin akışı sırasında gelen verilerin güvenli olup olmadığını kontrol etmemiz gerektiği durumlarda da bir diğer veri bileşeni olarak Verification (Doğrulama) görülebilir. Bu veri doğru kişiler tarafından görülebilir veya saklı kalması gerekiyor olabilir.
Value (Değer): Belki de en önemli katmanlardan bir tanesi de 'Değer' katmanıdır, verilerimiz yukarıdaki veri bileşenlerinden filtrelendikten sonra büyük verinin üretimi ve işlenmesi katmanlarında elde edilen verilerin şirketimiz için artı değer sağlıyor olması gerekiyor.