Haberler
Büyük Dil Modellerinde Veri Paylaşım Riskleri

ChatGPT, OpenAI adlı ABD’li teknoloji şirketi tarafından geliştirilen yapay zeka destekli bir sohbet botudur. Temeli 2020’de yayınlanan ve derin öğrenme ile insan diline benzer metinler üretebilen GPT‑3 adlı büyük dil modeline dayanır ancak bu tür modellerin temeli çok daha eskiye uzanır.
Büyük dil modelleri (LLM), genellikle internetten toplanan devasa metin veri kümeleri üzerinde eğitilir. Bu sayede web sayfaları, bilimsel makaleler, kitaplar ve sosyal medya gönderileri gibi farklı kaynaklardan edindikleri bilgiler modelin hafızasında saklanır. Ancak bu ölçekteki veriyi ilk aşamada tamamen kusursuz filtrelemek mümkün olmadığından, birtakım tartışmalı veya hatalı içerikler de modele dahil olmuş olabilir.
Algoritma, kelimeler arasındaki olasılıksal ilişkileri öğrenerek bir “olasılık haritası” oluşturur. Kullanıcı bir soru veya komut (prompt) verdiğinde, model bu harita doğrultusunda en uygun yanıtı üretir. Eğitilmiş modele sonrasında yeni metinler eklenmez ancak ince ayar (fine-tuning) ile model belirli bir konu veya kullanım alanı için ek veriyle yeniden eğitilebilir ve komut genişletme yöntemi ile kullanıcı komutuna ek bilgi eklenerek modelin yanıt kalitesinin artırılması sağlanabilir.
Bununla birlikte LLM’lerin bazı önemli sınırları vardır:
- Gerçek olmayan veya yanlış bilgiler verebilir.
- Önyargılı verilerden beslenerek taraflı yanıtlar üretebilir, yanıltcı sorulara kolayca ikna olabilir.
- Kötü niyetli kullanıcılar zararlı veya uygunsuz metin ürettirebilir.
LLM’e gönderdiğiniz sorgular doğrudan modele kaydedilmez ancak servis sağlayıcısı (örneğin OpenAI) bu sorguları görebilir, depolayabilir ve ileride sistemi geliştirmek için kullanabilir. Dolayısıyla gizli veya hassas bilgileri asla bu tür platformlara göndermemek gerekir.
Bir diğer risk de saklanan sorguların siber saldırı, veri sızıntısı ya da yanlış yapılandırma sonucu üçüncü şahısların eline geçebilme ihtimalidir. Ayrıca LLM sağlayıcısı şirketin ileride farklı bir yapı veya politika benimsemesi, geçmişte girilmiş verilerin gizliliğini etkileyebilir.
LLM kullanırken şunlara dikkat edilmelidir:
- Hassas bilgi ve kişisel verileri (kimlik, finansal doküman, hesap bilgileri vb.) sorgularda kullanmayın.
- Kurumsal veya ticari sır niteliğindeki belgeleri, stratejileri veya planları asla doğrudan paylaşmayın.
- Modelin ürettiği yanıtları mutlaka güvenilir kaynaklardan kontrol edin; yanılma ihtimalini unutmayın.
- Sorularınızı mümkün olduğunca spesifik, açık ve bağlamsal bilgi içerecek şekilde yapılandırın, belirsiz veya yönlendirici ifadelerden kaçının.
- Sorgularınızın ve yanıtların kaydedilip analiz edildiğini göz önünde bulundurarak, uzun vadede geri dönüşü zor veya hatalı veri girişlerinden kaçının.
- Üretilen içeriğin tarafsızlığını düzenli olarak denetleyin.
- Kritik karar süreçlerinde LLM çıktısını tek kaynak olarak kullanmayın; insan denetimi ve ek doğrulama adımlarından yararlanın.
- Gizlilik ve uyumluluk gereksinimlerine (KVKK vb.) uygun hareket edin.
