Veri Madenciliği

1. Ünite: Veri Madenciliğine Giriş

Veri madenciliği, büyük miktardaki veriler içinden gizli, daha önce bilinmeyen, geçerli ve uygulanabilir bilgilerin çıkarılması sürecidir. Günümüzde veri miktarı katlanarak artarken, bu veriyi anlamlı kararlara dönüştürme ihtiyacı veri madenciliğini modern işletmeciliğin kalbi haline getirmiştir. Veri madenciliği; istatistik, yapay zeka, makine öğrenmesi ve veritabanı sistemlerinin kesişim noktasında yer alan çok disiplinli bir alandır. Sürecin temelinde Bilgi Keşfi (KDD – Knowledge Discovery in Databases) süreci yer alır. Bu süreç; verinin temizlenmesi, bütünleştirilmesi, seçilmesi, dönüştürülmesi, veri madenciliği işleminin uygulanması ve son olarak elde edilen örüntülerin değerlendirilmesi aşamalarından oluşur.

Veri madenciliği görevleri temelde “tanımlayıcı” ve “tahmin edici” olarak ikiye ayrılır. Tanımlayıcı modeller, verideki mevcut durumu ve ilişkileri özetlerken (kümeleme, birliktelik analizi gibi); tahmin edici modeller, mevcut veriden yola çıkarak gelecekteki sonuçları öngörmeyi amaçlar (sınıflandırma, regresyon gibi). Veri madenciliğinin kullanım alanları oldukça geniştir; bankacılıkta kredi skorlamasından perakendede sepet analizine, tıpta hastalık teşhisinden sosyal medyada duygu analizine kadar her alanda uygulanır. Ancak başarılı bir uygulama için sadece algoritma bilgisi yetmez; iş problemini doğru tanımlamak ve verinin doğasını iyi anlamak gerekir. Veri madenciliği bir “sihirli değnek” değil, doğru veriyle beslendiğinde değer üreten sistematik bir analiz yöntemidir.

2. Ünite: Veri Ön İşleme

“Çöp girerse çöp çıkar” (Garbage In, Garbage Out) ilkesi veri madenciliğinin en önemli kuralıdır. Veri ön işleme, ham verinin analiz edilebilir ve kaliteli hale getirilmesi için yapılan tüm işlemleri kapsar ve genellikle projenin %60-80’lik kısmını oluşturur. Ham veriler genellikle eksik (bazı değerlerin girilmemiş olması), gürültülü (hatalı veya aykırı değerler içermesi) ve tutarsızdır. Ön işleme adımları; veri temizleme, veri bütünleştirme, veri dönüştürme ve veri indirgeme olarak sıralanır. Veri temizlemede eksik değerler; satırı silme, ortalama ile doldurma veya regresyon gibi yöntemlerle tamamlanırken; gürültülü veriler için düzleştirme (binning) teknikleri kullanılır.

Veri bütünleştirme, farklı kaynaklardan (farklı veritabanları, Excel dosyaları vb.) gelen verilerin tek bir yapıda birleştirilmesidir. Bu aşamada veri çakışmaları ve tekrarlar giderilir. Veri dönüştürme aşamasında, veriler algoritmaların daha iyi çalışması için normalizasyon (0-1 arasına çekme) veya standartlaştırma işlemlerine tabi tutulur. Ayrıca sürekli verilerin kategorik hale getirilmesi (discretization) de bu aşamadadır. Veri indirgeme ise, analizin doğruluğunu bozmadan veri boyutunun (özellik sayısı veya kayıt sayısı) azaltılmasıdır. Temel Bileşen Analizi (PCA) gibi tekniklerle gereksiz değişkenler elenerek hesaplama maliyeti düşürülür. Kaliteli bir ön işleme süreci, modelin hem doğruluğunu hem de hızını doğrudan artırır.

3. Ünite: Veri Keşfi ve Görselleştirme

Veri keşfi ve görselleştirme, analistin elindeki veriyi “tanıma” sürecidir. Algoritmalara geçmeden önce verinin dağılımını, değişkenler arasındaki ilişkileri ve aykırı değerleri anlamak için betimsel istatistikler ve grafiksel araçlar kullanılır. Merkezi eğilim ölçüleri (aritmetik ortalama, medyan, mod) ve yayılım ölçüleri (varyans, standart sapma, çeyreklikler) verinin genel portresini çizer. Özellikle medyan, aykırı değerlere karşı ortalamadan daha dirençli bir ölçüdür. Görselleştirme ise, insan beyninin karmaşık sayı dizilerini anlamlandırmaktaki zorluğunu aşmasını sağlar.

Histogramlar, bir değişkenin frekans dağılımını göstererek verinin normal dağılıp dağılmadığını anlamamıza yardımcı olur. Kutu grafikleri (Boxplots), verinin çeyrekliklerini ve özellikle aykırı değerleri (outliers) tespit etmekte çok güçlüdür. Saçılım diyagramları (Scatter plots) ise iki değişken arasındaki ilişkinin (korelasyon) yönünü ve şiddetini görselleştirir. Modern veri keşfi süreçlerinde interaktif grafikler ve ısı haritaları (Heatmaps) da yoğun olarak kullanılır. Bu aşama, hangi değişkenlerin analize dahil edileceğine karar vermede ve verideki gizli kalıpları ilk bakışta fark etmede kritik bir rol oynar. Görselleştirme sadece bir sunum aracı değil, aynı zamanda bir analiz yöntemidir.

4. Ünite: İstatistiki Testler

İstatistiki testler, veri madenciliği sürecinde elde edilen sonuçların şans eseri mi oluştuğunu yoksa bilimsel olarak anlamlı mı olduğunu kanıtlamak için kullanılır. Hipotez testi süreci, bir “Sıfır Hipotezi” (H0 – genellikle fark yoktur der) ve “Alternatif Hipotez” (H1 – fark vardır der) kurulmasıyla başlar. Test sonucunda elde edilen “p-değeri” (p-value), H0 hipotezinin doğruluğu durumunda gözlemlenen sonucun oluşma olasılığını verir. Genellikle p < 0.05 ise H0 reddedilir ve sonuç istatistiksel olarak anlamlı kabul edilir. Bu ünitede; t-testi, ANOVA, korelasyon analizi ve ki-kare testi gibi temel araçlar ele alınır.

T-testi, iki grubun ortalamaları arasındaki farkı karşılaştırırken; ANOVA üç veya daha fazla grubu karşılaştırmak için kullanılır. Korelasyon analizi (Pearson veya Spearman), iki değişken arasındaki ilişkinin gücünü -1 ile +1 arasında bir katsayı ile belirler. Ki-kare testi ise kategorik değişkenler arasındaki bağımsızlığı ölçer. Veri madenciliğinde modellerin performansını değerlendirirken kullanılan hata payları ve güven aralıkları da istatistiksel temellere dayanır. İstatistiki testler, veriden çıkarılan sonuçların genellenebilirliğini sağlar ve “aşırı öğrenme” (overfitting) gibi hataların önüne geçmede bir denetim mekanizması görevi görür.

5. Ünite: Tahmin Yöntemleri – 1

Tahmin yöntemleri, geçmiş verileri kullanarak gelecekteki sayısal değerleri öngörmeyi amaçlar. Bu ünitenin odak noktası olan Regresyon Analizi, bağımlı bir değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi matematiksel bir modelle (denklemle) açıklar. Basit Doğrusal Regresyon, tek bir bağımsız değişkenin bağımlı değişken üzerindeki etkisini y = ax + b formülüyle inceler. Burada ‘a’ katsayısı değişkenin etkisini, ‘b’ ise sabit değeri ifade eder. Regresyon modellerinin başarısı “Hataların Kareleri Toplamı”nın (SSE) minimize edilmesiyle ölçülür.

Modelin ne kadar başarılı olduğunu anlamak için R-kare (Belirlilik Katsayısı) kullanılır; bu değer bağımlı değişkendeki değişimin yüzde kaçının bağımsız değişkenlerce açıklandığını gösterir (0 ile 1 arası). Ayrıca Ortalama Mutlak Hata (MAE) ve Kök Ortalama Kare Hata (RMSE) gibi metrikler tahminlerin gerçek değerlerden ne kadar saptığını ölçer. Doğrusal regresyonun çalışması için; hataların normal dağılması, değişkenler arasında doğrusallık olması ve hataların varyansının sabit olması gibi varsayımlar gerekir. Tahmin yöntemleri, özellikle satış tahminleri, borsa öngörüleri ve risk yönetimi gibi sürekli veri içeren alanlarda işletmelere stratejik avantaj sağlar.

6. Ünite: Tahmin Yöntemleri – 2

Altıncı ünite, regresyon analizinin daha karmaşık ve gerçek hayat senaryolarına uygun türlerini inceler. Çoklu Doğrusal Regresyon, bir bağımlı değişkenin birden fazla bağımsız değişken tarafından etkilendiği durumlarda kullanılır. Örneğin, bir evin fiyatını sadece metrekaresi değil; konumu, oda sayısı ve bina yaşı gibi birçok faktör birlikte belirler. Bu modellerde “çoklu doğrusallık” (multicollinearity) problemi, yani bağımsız değişkenlerin kendi aralarında yüksek korelasyona sahip olması, modelin doğruluğunu bozabilir ve dikkatle yönetilmelidir.

Ünitede ayrıca doğrusal olmayan (non-linear) regresyon modellerine ve değişken seçim yöntemlerine (Adımsal – Stepwise Regresyon) değinilir. Model oluştururken en önemli denge “sapma” (bias) ve “varyans” arasındaki dengedir. Çok basit modeller veriyi öğrenemezken, çok karmaşık modeller veriyi ezberleyerek (overfitting) yeni verilerde başarısız olur. Bu sorunu aşmak için Lasso ve Ridge gibi düzenlileştirme (regularization) teknikleri kullanılır. Tahmin yöntemlerinin ikinci aşaması, modelin sadece eğitim verisinde değil, sistemin daha önce görmediği “test verisinde” de başarılı olmasını sağlamayı hedefler. Bu süreç, kurumsal karar alma mekanizmalarına bilimsel bir temel sunar.

7. Ünite: Sınıflandırma Yöntemleri

Sınıflandırma, verileri önceden tanımlanmış kategorilere (sınıflara) atama işlemidir; yani “tahmin” sayısal bir değer değil, bir etikettir (Örn: Müşteri terk eder mi/etmez mi?, E-posta spam mi/değil mi?). Sınıflandırma bir “denetimli öğrenme” (supervised learning) yöntemidir. En yaygın kullanılan algoritmalar; Karar Ağaçları, Naive Bayes, K-En Yakın Komşu (K-NN) ve Lojistik Regresyon’dur. Karar ağaçları (Örn: ID3, C4.5, CART), veriyi bölmek için Bilgi Kazancı (Information Gain) veya Gini İndeksi gibi ölçütleri kullanarak ağaç yapısında bir model oluşturur; bu modelin en büyük avantajı insan tarafından kolayca okunabilir olmasıdır.

Naive Bayes, olasılık temelli bir algoritmadır ve özellikle metin sınıflandırmada çok hızlıdır. K-NN ise, bir kaydın sınıfını ona en yakın ‘k’ adet komşusuna bakarak (ooylama ile) belirler. Sınıflandırma modellerinin başarısı “Karışıklık Matrisi” (Confusion Matrix) ile ölçülür. Bu matris üzerinden doğruluk (accuracy), kesinlik (precision), duyarlılık (recall) ve F1-skoru hesaplanır. Sadece doğruluğa bakmak yanıltıcı olabilir; örneğin nadir hastalıkların tespitinde “duyarlılık” (hastayı kaçırmama) çok daha kritiktir. Sınıflandırma, müşteri segmentasyonundan dolandırıcılık tespitine kadar veri madenciliğinin en sık başvurulan uygulama alanıdır.

8. Ünite: Kümeleme Yöntemleri

Kümeleme, verideki gizli yapıları keşfetmek için benzer özelliklere sahip kayıtları gruplandırma işlemidir. Sınıflandırmadan farkı, grupların önceden belli olmamasıdır; bu nedenle bir “denetimsiz öğrenme” (unsupervised learning) yöntemidir. Temel amaç, küme içi benzerliği maksimize ederken, kümeler arası benzerliği minimize etmektir. En popüler yöntem olan K-Ortalamalar (K-Means) algoritması, veriyi kullanıcı tarafından belirlenen ‘k’ adet kümeye ayırır. Algoritma; merkezleri rastgele atar, kayıtları en yakın merkeze bağlar, merkezleri yeniden hesaplar ve bu işlem merkezler değişmeyene kadar devam eder.

Hiyerarşik kümeleme ise, verileri bir ağaç yapısı (dendrogram) oluşturacak şekilde birleştirir veya böler. Kümelemede en önemli konu “mesafe ölçümü”dür (Örn: Öklid, Manhattan mesafesi). Optimal küme sayısını belirlemek için “Dirsek Yöntemi” (Elbow Method) kullanılır. Kümeleme; pazarlamada benzer davranış gösteren müşteri grupları oluşturmada, astronomide yıldız gruplandırmada veya biyolojide gen analizinde kullanılır. Başarılı bir kümeleme, karmaşık veri setlerini yönetilebilir ve anlamlı parçalara ayırarak işletmelerin her gruba özel stratejiler geliştirmesine olanak tanır.

9. Ünite: Birliktelik Analizi

Birliktelik analizi, büyük veri kümelerindeki değişkenler arasındaki ilginç ilişkileri (birlikte gerçekleşme durumlarını) bulmayı amaçlar. “Pazar Sepeti Analizi” olarak da bilinir; klasik örneği “Bira ve bebek bezi alanlar genellikle fıstık da alırlar” şeklindeki örüntülerin keşfidir. Bu analizde “X ise Y” (X -> Y) formunda kurallar üretilir. Kuralların gücünü ölçmek için üç temel metrik kullanılır: Destek (Support – X ve Y’nin birlikte görülme sıklığı), Güven (Confidence – X alındığında Y’nin alınma olasılığı) ve Kaldıraç (Lift – X ve Y’nin birlikte görülmesinin şans eserinden ne kadar fazla olduğu).

Apriori Algoritması, bu alandaki en temel yöntemdir. Algoritma, “Eğer bir küme sık gözlenmiyorsa, onun üst kümeleri de sık gözlenmez” mantığıyla arama uzayını daraltarak sık geçen öğe kümelerini bulur. FP-Growth ise daha modern ve hızlı bir alternatiftir. Birliktelik analizi sadece perakendede değil; web kullanım madenciliğinde (sayfa geçişleri), tıpta (semptom birliktelikleri) ve kütüphane yönetiminde kullanılır. Elde edilen kurallar; çapraz satış stratejileri geliştirme, raf düzenleme ve kampanya tasarımı gibi konularda doğrudan uygulanabilir ticari zeka sunar.

10. Ünite: Metin Madenciliği

Metin madenciliği, yapılandırılmamış metin verilerinden (e-postalar, sosyal medya mesajları, makaleler) anlamlı bilgiler çıkarma sürecidir. Geleneksel veri madenciliğinden farkı, verinin satır ve sütunlar yerine düz metinlerden oluşmasıdır. Süreç, metnin ön işlemesiyle başlar: Noktalama işaretlerinin kaldırılması, tüm harflerin küçültülmesi, stop-words (ve, ama, gibi etkisiz kelimeler) temizliği ve kelimelerin köklerine indirgenmesi (stemming/lemmatization). Ardından metin, “Terim-Belge Matrisi” (TDM) gibi sayısal bir yapıya dönüştürülür.

Metin madenciliğinde Duygu Analizi (Sentiment Analysis), bir metnin pozitif, negatif veya nötr olduğunu belirleyerek müşteri memnuniyetini ölçmede devrim yaratmıştır. Konu Modelleme (Topic Modeling) ise, büyük metin yığınlarındaki ana temaları (LSA veya LDA algoritmalarıyla) keşfeder. Kelime frekanslarının ötesinde, kelimelerin bağlam içindeki ağırlığını ölçmek için TF-IDF yöntemi kullanılır. Metin madenciliği; spam filtreleme, otomatik özetleme, haber gruplandırma ve müşteri hizmetlerinde chatbotların geliştirilmesinde temel rol oynar. İnternetteki verinin %80’inden fazlasının metin tabanlı olduğu düşünülürse, metin madenciliği veri biliminin en stratejik alanlarından biri haline gelmiştir.

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Scroll to Top