
Büyük Veri 2025 Final
Bu final sınavı; büyük veri analitiği bulut bilişim bileşenleri Apache Spark (PySpark) mimarisi veri anonimleştirme teknikleri ve bilgi güvenliği (KVKK) konularını kapsamaktadır. İlgili sorular temel veri işleme süreçlerine ve yapay sinir ağları modellerine odaklanmaktadır.
Sonuçlar
#1. Python ortamında kullanılan “map” komutu aşağıdaki hangi işlemi gerçekleştirmek için kullanılır?
#2. Karıştırma ve permütasyon olarak da bilinir veri kümesi öznitelik değerlerini orijinal kayıtlara karşılık gelmeyecek şekilde yeniden düzenlemek maksadıyla kullanılan bir tekniktir. Yukarıda açıklanan veriyi anonimleştirme tekniği aşağıdakilerden hangisidir?
#3. Aşağıdakilerden hangisi Apache Spark ile bir büyük veri analizi süreci için hatalı bir bilgi içermektedir?
#4. Herkesin özgürce ve yeniden kullanabileceği ve yeniden dağıtılabilen yalnızca nitelik ve paylaşım gereksinimine tabi olan veridir. Tanımı verilen veri çeşidi aşağıdakilerden hangisidir?
#5. I. Klinik referanslar II. Genomik veriler III. Statik veriler IV. Yayınlar Sağlık hizmetlerinde birçok kaynaktan çok sayıda veri üretilmektedir. Yukarıda verilenlerden hangileri sağlık hizmetlerindeki büyük veri kaynaklarındandır?
#6. Aşağıdakilerden hangisi bulut bilişimin veri etkileşiminde olduğu bir bileşen değildir?
#7. Aşağıdakilerden hangisi Konvolüsyonel Sinir Ağları (CNN) için kesinlikle yanlış bir ifadedir?
#8. Aşağıdakilerden hangisi Apache Spark mimarisinde yer alan bir bileşendir?
#9. Nicel ve nitel analiz yöntemleri arasındaki temel fark aşağıdakilerden hangisidir?
#10. …………… büyük veri analizlerini iletmek anlamak ve geliştirmek için resimler diyagramlar ya da animasyonlar oluşturmak için kullanan bir tekniktir. Yukarıdaki cümlede verilen boşluğa aşağıdakilerden hangisi gelmelidir?
#11. Aşağıdakilerden hangisi Kişisel Verileri Koruma Kurulu’nun görev ve yetkilerinden değildir?
#12. Semantik web sayesinde makinelerin etkileşiminin yanında ………… etkileşiminin de üst seviyeye ulaşması beklenmektedir. Yukarıdaki cümlede verilen boşluğa aşağıdakilerden hangisi gelmelidir?
#13. Aşağıdakilerden hangisi mahremiyet yaklaşımlarında ele alınan boyutlardan biridir?
#14. Aşağıdakilerden hangisi PySpark için doğru bir tanımlamadır?
#15. Aşağıdakilerden hangisi yapay zekânın veriden elde ettiği amaçlardan biri değildir?
#16. Aşağıdakilerden hangisi bilgi güvenliğinin ana unsurlardan biri değildir?
#17. Dolandırıcılıktan teröre kadar değişen güvenlik sorunlarını çözmek için büyük veri analitiği yöntemlerini kullanarak çözümler üretmektedir. Sistemlerini CIA destekleriyle geliştirmiş ve ABD hükümeti ve güvenlik kurumları tarafından yaygın bir şekilde kullanılmaktadır. Yukarıda verilen bilgiler hangi kurumun büyük veri uygulaması sayesinde gerçekleştirilmiştir?
#18. Aşağıdakilerden hangisi veri gelişimi sırasında kullanılan isimlerden biri değildir?
#19. Aşağıdakilerden hangisi işletmelerin büyük veri kaynaklarından biri değildir?
#20. Sağlık hizmetleri verileri kamuya açık hale getirilmemesi için yetkisiz erişime karşı güvence altına alınması gereken son derece hassas verilerdir ve ayrıca sağlık hizmeti sahtekarlığı da saldırganlardan önlenebilir. Bu nedenle ………………. sağlık alanındaki en önemli ve zorlu görevlerden biridir. Yukarıdaki cümlede verilen boşluğa aşağıdaki cümlelerden hangisi gelmelidir?
Büyük Veri ve Analitiği Çalışma Kılavuzu
Bu belge, büyük veri ekosistemi, veri analitiği teknikleri, veri güvenliği ve ilgili teknolojiler üzerine kapsamlı bir inceleme sunmaktadır. Kaynak metinden elde edilen bilgiler ışığında hazırlanan bu kılavuz; kavramsal tanımları, teknik operasyonları ve sektörel uygulamaları içermektedir.
——————————————————————————–
Bölüm 1: Kısa Cevaplı Sorular
Aşağıdaki soruları kaynak metinde verilen bilgilere dayanarak 2-3 cümle ile yanıtlayınız.
- PySpark teknolojisini tanımlayarak temel amacını açıklayınız.
- Bilgi güvenliğinin dört ana unsuru nelerdir?
- Palantir Technologies şirketinin büyük veri alanındaki uzmanlık alanı ve iş birlikleri hakkında bilgi veriniz.
- Konvolüsyonel Sinir Ağlarının (CNN) temel yapısal özellikleri nelerdir?
- Açık veri (Open Data) kavramını tanımlayınız.
- Büyük veri görselleştirme tekniği hangi amaçla ve nasıl kullanılır?
- Sağlık hizmetlerinde büyük veri kaynakları olarak neler gösterilebilir?
- Python ortamındaki “map” komutunun veri işleme sürecindeki işlevi nedir?
- Veri anonimleştirme tekniklerinden “Veri Değiştirme” (Permütasyon) nasıl çalışır?
- Bulut bilişimin veri etkileşiminde bulunduğu temel bileşenler nelerdir?
——————————————————————————–
Bölüm 2: Cevap Anahtarı
- PySpark: Python dili ile Apache Spark’ın iş birliği sonucunda ortaya çıkmış bir kütüphanedir. Temel amacı, rastgele dağıtılmış veri kümelerini verimli bir şekilde işlemek için tasarlanmış bir teknoloji sunmaktır.
- Bilgi Güvenliğinin Unsurları: Bilgi güvenliğinin temel yapı taşları; gizlilik, erişilebilirlik, bütünlük ve güvenirlilik başlıklarından oluşmaktadır. Bu unsurlar verinin korunması ve doğru yönetilmesi için esastır.
- Palantir Technologies: Dolandırıcılıktan teröre kadar geniş bir yelpazedeki güvenlik sorunlarını büyük veri analitiği ile çözmektedir. CIA desteğiyle geliştirilen bu sistemler, ABD hükümeti ve güvenlik kurumları tarafından yaygın olarak tercih edilmektedir.
- CNN Özellikleri: Hayvan görsel korteksinden ilham alan, derin sinir ağlarının öncüsü olan ileri beslemeli bir yapay sinir ağıdır. Giriş verilerini genellikle iki veya üç boyutlu görüntüler olarak varsayarak işlemektedir.
- Açık Veri: Herkesin özgürce kullanabileceği, yeniden dağıtabileceği ve üzerinde değişiklik yapabileceği veri türüdür. Bu veri tipi genellikle yalnızca atıf yapılması ve aynı lisansla paylaşılması şartına tabidir.
- Büyük Veri Görselleştirme: Büyük veri analiz sonuçlarını iletmek, daha iyi anlaşılmasını sağlamak ve geliştirmek amacıyla kullanılır. Bu süreçte resimler, diyagramlar veya animasyonlar gibi görsel araçlardan yararlanılır.
- Sağlık Veri Kaynakları: Sağlık sektöründe büyük veri üretimi; klinik referanslar, genomik veriler ve bilimsel yayınlar gibi çeşitli kanallardan sağlanmaktadır.
- “Map” Komutu: Veri setindeki özelliklerin haritalanması sürecinde kullanılır. Mevcut özellikler üzerinde revizyon yapma, yeni özellik ekleme veya gereksiz özellikleri çıkarma işlemlerini gerçekleştirir.
- Veri Değiştirme (Permütasyon): Karıştırma yöntemi olarak da bilinen bu teknikte, veri kümesindeki öznitelik değerleri orijinal kayıtlarla eşleşmeyecek şekilde yeniden düzenlenir. Bu, veriyi anonimleştirerek kimlik bilgilerinin korunmasını sağlar.
- Bulut Bilişim Bileşenleri: Bulut bilişimin veri ile etkileşime girdiği ana bileşenler; dayanıklılık, erişim, gizlilik ve sürekliliktir.
——————————————————————————–
Bölüm 3: Deneme (Essay) Formatında Sorular
Aşağıdaki konuları, kaynakta verilen detayları temel alarak geniş kapsamlı bir şekilde tartışınız (Cevap anahtarı sağlanmamıştır).
- Analiz Yöntemlerinin Karşılaştırılması: Nicel ve nitel analiz yöntemleri arasındaki temel farkları, kullanılan veri türleri (sayısal ve soyut) bağlamında değerlendiriniz.
- Kişisel Verilerin Korunması ve Denetim: Kişisel Verileri Koruma Kurulu’nun veri sorumluları üzerindeki düzenleyici yetkilerini ve veri güvenliği yükümlülüklerini açıklayınız.
- Apache Spark Ekosistemi: Apache Spark mimarisinde yer alan “Cluster Manager” ve “SparkContext” gibi bileşenlerin bir büyük veri projesindeki rollerini analiz ediniz.
- Sağlık Sektöründe Veri Güvenliği: Sağlık verilerinin hassasiyeti göz önüne alındığında, veri güvenliğinin bu sektördeki en zorlu görevlerden biri olmasının nedenlerini ve potansiyel riskleri tartışınız.
- Geleceğin Web Teknolojileri: Semantik Web kavramının, makineler arası etkileşimin ötesinde insan-insan etkileşimine sağlaması beklenen katkıları irdeleyiniz.
——————————————————————————–
Bölüm 4: Terimler Sözlüğü
Aşağıdaki tabloda metinde geçen temel kavramlar ve tanımları yer almaktadır:
| Terim | Tanım |
| Kümeleme (Clustering) | Yapay zekanın veriden elde ettiği amaçlardan biri olan, benzer verileri gruplandırma işlemi. |
| Sınıflandırma | Verilerin belirli kategorilere ayrılması sürecini ifade eden yapay zeka amacı. |
| Gri Veri | Veri gelişimi sürecinde tanımlanan veri türlerinden biridir. |
| Cluster Manager | Apache Spark mimarisinde kaynakların yönetiminden sorumlu olan bileşen. |
| SparkSession.builder | Yerel bilgisayarda çok çekirdekli bir Spark uygulamasını başlatmak için kullanılan komut. |
| Bilgi Mahremiyeti | Mahremiyet yaklaşımlarında ele alınan temel boyutlardan biri. |
| Bölütleme (Segmentation) | Veri setlerini belirli özelliklere göre anlamlı parçalara ayırma tekniği. |
| Pip Install | Python ortamına yeni kütüphaneler yüklemek için kullanılan standart komut. |
| İleri Beslemeli Ağ | Bilginin yalnızca girişten çıkışa doğru tek yönlü aktığı sinir ağı yapısı (Örn: CNN). |
| Veri Sorumlusu | Kişisel verilerin işleme amaçlarını ve vasıtalarını belirleyen, veri kayıt sisteminin kurulmasından ve yönetilmesinden sorumlu olan kişi veya kurum. |
