
Veri Madenciliği 2025 Bütünleme
Bu bütünleme sınavı; veri madenciliğinin temel felsefesini, boyut azaltma tekniklerinin faydalarını, sınıflandırma modellerinin değerlendirme metriklerini (Hassasiyet, Duyarlılık, F1 Skoru), birliktelik kuralları (apriori) algoritmalarını, kümeleme (K-Ortalamalar, Bulanık kümeleme) çeşitlerini ve Doğal Dil İşleme (NLP) ile yapay sinir ağı kavramlarını kapsamaktadır.
Sınavda Hangi Konular Var? (Özeti Görmek İçin Tıkla ⬇️)
VERİ MADENCİLİĞİ BÜTÜNLEME 2025 sınav belgesinde, veri madenciliği ve ilgili tekniklere dair çoktan seçmeli sorular yer almaktadır.
Temel Kavramlar ve Önemi:
- Veri madenciliğinin önemi, büyük veri setlerindeki değerli bilgileri ortaya çıkararak kritik kararların alınmasına yardımcı olmasıyla açıklanabilir.
- Boyut azaltma (dimensionality reduction) tekniklerinin temel faydalarından biri veri setindeki bilgi kaybını engellemek değildir.
Metin Madenciliği ve NLP:
- Bir belgenin ana temalarını belirleme ve bu temellere dayalı olarak önceden belirlenmiş bir kategori setine yerleştirmeyi içeren metin madenciliği adımı Kategorizasyon‘dur.
- Metin madenciliğinde, kelimelerin sırasını veya dil bilgisini dikkate almayan temsil modeli Kelime torbası‘dır.
- Doğal Dil İşleme (NLP), insan dilini bilgisayar programlarının anlayabileceği sayısal ve sembolik verilere dönüştürmeyi hedefler.
Sınıflandırma ve Regresyon:
- Lojistik regresyonun doğrusal regresyona göre avantajlarından biri, kategorik bağımlı değişkenleri modelleyebilmesidir.
- Lojistik regresyon modelinde sigmoid fonksiyonunun çıktısının 0.7 olarak bulunması, gözlemin ait olduğu sınıfın %70 olasılıkla pozitif sınıf olduğu anlamına gelir.
- En Olası Tahmin (Maximum Likelihood Estimation – MLE) yöntemi, lojistik regresyonda modeldeki en uygun parametre setini bulmak için kullanılır.
Değerlendirme Metrikleri:
- Hassasiyet (Precision) metriği ile ölçülen durum, yanlış pozitiflerin sınırlanmasıdır.
- F1 skoru, Hassasiyet ve Duyarlılık metriklerinin harmonik ortalamasıdır.
- Doğruluk (Accuracy) metriği, modelin tüm kayıtların ne kadarını doğru bir şekilde sınıflandırabildiği sorusuna yanıt arar.
Kümeleme ve Birliktelik Kuralları:
- Veri noktalarının belirsizliğe göre birden fazla kümeye ait olabildiği kümeleme türü Bulanık kümeleme‘dir.
- K-ortalamalar algoritmasında küme merkezini hesaplamak için tüm veri noktalarının aritmetik ortalaması hesaplanır.
- Birliktelik kuralı keşfi için kullanılan strateji, sık öge kümesi üretme ve kural üretmedir.
Diğer Teknikler:
Korelasyon analizi değişkenler arasındaki ilişkinin yönünü ve gücünü belirlerken, regresyon analizleri bu ilişkiyi anlamak ve tahmin yapmak için kullanılır.
Kendi kendini organize eden haritalar yöntemi, rekabetçi öğrenmeyi uygular ve komşuluk fonksiyonu kullanır.
Min-Max Normalizasyonu işleminde dönüştürme aralığı, değişken değerlerini $[0, 1]$ arasında bir aralığa dönüştürmedir.
