Veri Madenciliği 2025 Bütünleme


Veri Madenciliği 2025 Bütünleme

Bu bütünleme sınavı; veri madenciliğinin temel felsefesini, boyut azaltma tekniklerinin faydalarını, sınıflandırma modellerinin değerlendirme metriklerini (Hassasiyet, Duyarlılık, F1 Skoru), birliktelik kuralları (apriori) algoritmalarını, kümeleme (K-Ortalamalar, Bulanık kümeleme) çeşitlerini ve Doğal Dil İşleme (NLP) ile yapay sinir ağı kavramlarını kapsamaktadır.


Sınavda Hangi Konular Var? (Özeti Görmek İçin Tıkla ⬇️)

VERİ MADENCİLİĞİ BÜTÜNLEME 2025 sınav belgesinde, veri madenciliği ve ilgili tekniklere dair çoktan seçmeli sorular yer almaktadır.

Temel Kavramlar ve Önemi:

  • Veri madenciliğinin önemi, büyük veri setlerindeki değerli bilgileri ortaya çıkararak kritik kararların alınmasına yardımcı olmasıyla açıklanabilir.
  • Boyut azaltma (dimensionality reduction) tekniklerinin temel faydalarından biri veri setindeki bilgi kaybını engellemek değildir.

Metin Madenciliği ve NLP:

  • Bir belgenin ana temalarını belirleme ve bu temellere dayalı olarak önceden belirlenmiş bir kategori setine yerleştirmeyi içeren metin madenciliği adımı Kategorizasyon‘dur.
  • Metin madenciliğinde, kelimelerin sırasını veya dil bilgisini dikkate almayan temsil modeli Kelime torbası‘dır.
  • Doğal Dil İşleme (NLP), insan dilini bilgisayar programlarının anlayabileceği sayısal ve sembolik verilere dönüştürmeyi hedefler.

Sınıflandırma ve Regresyon:

  • Lojistik regresyonun doğrusal regresyona göre avantajlarından biri, kategorik bağımlı değişkenleri modelleyebilmesidir.
  • Lojistik regresyon modelinde sigmoid fonksiyonunun çıktısının 0.7 olarak bulunması, gözlemin ait olduğu sınıfın %70 olasılıkla pozitif sınıf olduğu anlamına gelir.
  • En Olası Tahmin (Maximum Likelihood Estimation – MLE) yöntemi, lojistik regresyonda modeldeki en uygun parametre setini bulmak için kullanılır.

Değerlendirme Metrikleri:

  • Hassasiyet (Precision) metriği ile ölçülen durum, yanlış pozitiflerin sınırlanmasıdır.
  • F1 skoru, Hassasiyet ve Duyarlılık metriklerinin harmonik ortalamasıdır.
  • Doğruluk (Accuracy) metriği, modelin tüm kayıtların ne kadarını doğru bir şekilde sınıflandırabildiği sorusuna yanıt arar.

Kümeleme ve Birliktelik Kuralları:

  • Veri noktalarının belirsizliğe göre birden fazla kümeye ait olabildiği kümeleme türü Bulanık kümeleme‘dir.
  • K-ortalamalar algoritmasında küme merkezini hesaplamak için tüm veri noktalarının aritmetik ortalaması hesaplanır.
  • Birliktelik kuralı keşfi için kullanılan strateji, sık öge kümesi üretme ve kural üretmedir.

Diğer Teknikler:

Korelasyon analizi değişkenler arasındaki ilişkinin yönünü ve gücünü belirlerken, regresyon analizleri bu ilişkiyi anlamak ve tahmin yapmak için kullanılır.

Kendi kendini organize eden haritalar yöntemi, rekabetçi öğrenmeyi uygular ve komşuluk fonksiyonu kullanır.

Min-Max Normalizasyonu işleminde dönüştürme aralığı, değişken değerlerini $[0, 1]$ arasında bir aralığa dönüştürmedir.


 

Sonuçlar

#1. Günümüzdeki veri yoğun dünyada veri madenciliğinin önemi aşağıdakilerden hangisiyle en iyi şekilde açıklanabilir?

#2. Bir belgenin ana temalarını belirleme ve bu temellere dayalı olarak belgeyi önceden belirlenmiş bir kategori setine yerleştirmeyi içeren metin madenciliği adımı aşağıdakilerden hangisidir?

#3. Hassasiyet metriği ile ölçülen durum aşağıdakilerden hangisidir?

#4. Aşağıdakilerden hangisi boyut azaltma (dimensionality reduction) tekniklerinin temel faydalarından biri değildir?

#5. Bir fabrikada üretilen ampullerin ömrü ortalama 800 saat ve standart sapması 60 saat olan normal dağılıma uymaktadır. Eğer ampullerin ‘luk bir kısmı en uzun ömre sahipse bir ampulün bu ‘luk dilime girebilmesi için en az kaç saat dayanması gerekir? P(Z ≤ 1.20) = 0.90 için z değeri alınız

#6. Bir lojistik regresyon modelinde sigmoid fonksiyonunun çıktısı 0.7 olarak bulunmuştur. Bu sonuç anlamı aşağıdakilerden hangisidir?

#7. I={Şeker Kalem Un Silgi Su} kümesinden oluşturulan {Şeker Kalem Un}→{Silgi} kuralı düşük güven oranlı bir kuralsa aşağıdaki kurallardan hangisi düşük oranlı bir kuraldır?

#8. K-ortalamalar algoritmasında küme merkezini hesaplamak için aşağıdaki yöntemlerden hangisi kullanılır?

#9. Aşağıdakilerden hangisi lojistik regresyonun doğrusal regresyona göre avantajlarından biridir?

#10. Aşağıdaki hangi kümeleme türünde veri noktaları belirsizliğe göre birden fazla kümeye ait olabilir?

#11. I={Şeker Kalem Un Silgi Su} kümesinde {Kalem Silgi} ögelerinin seyrek öge kümesi olduğu durumda aşağıdakilerden hangisi sık öge kümesinde yer alır?

#12. Birliktelik kuralı keşfi için kullanılan strateji aşağıdakilerden hangisidir?

#13. Metin madenciliğinde belirli kategorilere sınıflandırmak veya doğal gruplara kümelendirmek için kullanılan ve kelimelerin sırasını veya dil bilgisini dikkate almayan temsil modeline verilen ad aşağıdakilerden hangisidir?

#14. Kendi kendini organize eden haritalar yönteminin aşağıdaki özelliklerinden hangisi diğer yapay sinir ağlarından farklıdır?

#15. Doğal Dil İşleme (NLP) ile ilgili olarak aşağıdaki ifadelerden hangisi tam anlamıyla doğrudur?

#16. Min-Max Normalizasyonu işleminde dönüştürme aralığı aşağıdakilerden hangisidir?

#17. F1 skoru aşağıda listelenen metriklerden hangisinin harmonik ortalamasıdır?

#18. En Olası Tahmin (Maximum Likelihood Estimation – MLE) yöntemi lojistik regresyonda kullanım amacı aşağıdakilerden hangisidir?

#19. Doğruluk metriği aşağıdaki sorulardan hangisine yanıt arar?

#20. Aşağıdaki ifadelerden hangisi korelasyon analizi ve regresyon analizleri arasındaki temel farkı en iyi açıklar?

Öncesi
Sınavı Bitir ve Sonucu Gör.

Yorum bırakın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Scroll to Top