Skip to main content

Artan dijitalleşme sürecinin sonucunda, veri merkezlerinde toplanmakta olan veri miktarı her geçen gün katlanarak artış gösterir. Bu verilerin doğru şekilde değerlendirilmesi için sağlıklı olarak toplanması ve analiz edilmesi gerekir. Bu noktada veri madenciliği devreye girer ve değerlendirilen veriler, bilimden pazarlama sektörüne geniş bir alanda kullanılır. Peki, “Verideki bilginin keşfedilmesi” olarak da tanımlanan veri madenciliği nedir?

Veri Madenciliği Nedir?

Büyük veri (big data) kavramı ile birlikte literatüre giren veri madenciliği (data mining), işlenmemiş büyük veri setlerinden işe yarayacak verilerin çıkarılması işlemidir. Elde edilen veri desenlerinin yazılım araçları ile analizini de kapsar. Bu analizler sonucu veriler arası doğru ilişkiler elde edilir ve geleceğe yönelik sağlıklı tahminler yapılabilir.

Veri madenciliği sürecinde özellikle makine öğrenme ve istatistik bilimleri kullanılır. Yapay zeka ile birlikte kullanıldığında oldukça verimli sonuçlar sunar. Veri madenciliği oldukça farklı alanlarda uygulanmaktadır. Araştırma ve geliştirme ya da bilimsel çalışmalar, bunların başında gelir.

Veri Madenciliği Örnekleri

Veri madenciliğinden birçok alanda faydalanılır. Bunların başlıcaları; mobil servis sağlayıcıları, perakende sektörü, e-ticaret, bilim ve mühendislik alanları, Ar-Ge çalışmaları, suç önleme, tarım, otomasyon, dinamik fiyatlandırma, pazarlama, finans, sağlık, ulaşım ve sigorta sektörleridir.

  • Bir online film şirketi, izleyici verilerinin analizi sonucu, müşterilerin tercih edeceği türden film ve seri çekimini sağlıklı şekilde yönlendirebilir.
  • Bankalar ellerindeki verilerin analizi ile kimin ne çeşit alışveriş yaptığını, ATM kullanıp kullanmadığını, ne sıklıkla ve ne oranda para çektiğini, bankanın ne gibi hizmetlerinden faydalandığını kolaylıkla tespit edebilir. Bankalar müşteri verilerini inceleyerek, kimin kredi verme açısından güvenilir olduğunu tespit edebilir.
  • E-ticaret firmaları, veri madenciliği sonucu müşteri davranışlarını, alışkanlıklarını, ilgi alanlarını, harcama bütçelerini kolayca elde edebilir ve bu doğrultuda pazarlama stratejileri geliştirebilir.

Veri Madenciliği Algoritmaları

Veri madenciliğinde sınıflandırma, karar destek mekanizma ağaçları ve kümeleme metotları kullanılır. Bu doğrultuda geliştirilmiş algoritmalar içinden kullanılacak veriye uygun olanı seçilir. C4.5, K –mean, Destek Vektör Makineleri, Apriori, CART gibi çok sayıda veri madenciliği algoritması mevcuttur.

C4.5

C4.5, karar ağacı şeklinde bir sınıflandırıcı oluşturur. Bunun yapılması için C4.5 ile hali hazırda sınıflandırılmış veri setleri kullanılır. Örneğin; hasta yaşı, kan basıncı, aile sağlık tarihi gibi bilgileri içeren veri setleri ile hastaların kanser olma olasılığı hesaplanabilir. C4.5 ile bu veriler kullanılarak sınıflandırma ya da karar ağaçları çıkartılabilir.

K-means

K-means algoritması, veri setlerini keşfetmek için yaygın kullanılan bir küme analiz tekniğidir. Bu teknik ile benzer özellikler taşıyan verileri bir araya getirerek kümeler oluşturur. Hasta verileri örneği burada da kullanılabilir. Bu algoritmanın en iyi yönü; kaç küme istediğinizi siz belirlersiniz, gerisini algoritma yapar.

Destek Vektör Makineleri

“SVM” olarak da adlandırılan Destek Vektör Makineleri algoritmaları, verileri iki sınıfa ayırır. SVM bir noktada C4.5 algoritmasına benzer bir yapı sergiler; ancak karar ağaçlarını kullanmaz. SVM veri setlerini öğrenir ve verileri iki sınıfa ayıracak denklemi tanımlar. Bu algoritmanın avantajlı tarafı gerekli fonksiyonu algoritmanın kendisinin belirlemesidir.

Veri Madenciliği Süreci

Veri madenciliği algoritmaları temel olarak belli bir süreci takip eder. Veri madenciliği süreci şu aşamaları kapsar:

  • Verilerin toplanması, güvenliğinin sağlanması,
  • Bu verilerin temizlenmesi,
  • Analitik araçlarla verilerin sınıflandırılması ve genel öngörünün elde edilmesi,
  • Karar destek mekanizmalarının devreye sokulması,
  • Elde edilen sonucun ölçülmesi,
  • Yazılım dilleri ve araçları (R, Python, Java, Makine öğrenme vb.) ile sonuçların test ve eğitimi,
  • Elde edilen sonuçlara göre karar mekanizmalarının geliştirilmesi