Yapay zekada hırsızlık skandalı I Milyonlarca kitap ve bilimsel makale izinsiz indirilmiş

Facebook’un çatı şirketi Meta, yapay zeka modeli LLaMA’yı eğitmek için milyonlarca kitap ve bilimsel makaleyi korsan şekilde indirmiş. Veri hırsızlığının başında Mistral AI’nin kurucularından olan Guillaume Lample var.

HABER MERKEZİ- ABD’de teknoloji şirketleri ile yazarlar ve yayınevleri arasındaki telif davaları sürerken, Meta’ya yönelik yeni iddialar gündeme geldi. Araştırmacı gazetecilik sitesi Mediapart’ın incelediği dava dosyalarına göre Meta, 2022’den itibaren yapay zeka modeli LLaMA’yı eğitmek için Library Genesis (LibGen) adlı internet sitesinden milyonlarca kitap ve akademik makale indirdi.

Söz konusu iddialar, ABD’de görülen “Kadrey v. Meta Platforms Inc.” davası kapsamında kamuoyuna açıklanan belgeler ve eski Meta çalışanlarıyla yapılan görüşmelere dayanıyor. Davacılar arasında tanınmış yazarlar da bulunuyor.

KORSAN VERİ TARTIŞMASI: ŞEFFAFLIK YOK

Belgeler, Meta içinde bazı araştırmacıların korsan içerik kullanımına karşı çıktığını, ancak şirketin zaman baskısı ve rekabet gerekçesiyle bu yöntemi benimsediğini gösteriyor. Özellikle kitapların, yapay zeka için “daha kaliteli dil verisi” sunduğu savunuluyor.

Mediapart’tan Clément Pouré ile Soizic Pénicaud’ya göre bu süreçte, o dönemde Meta’da çalışan ve bugün Fransa merkezli Mistral AI’nin kurucularından olan Guillaume Lample, LibGen’den onlarca terabayt verinin indirilmesini koordine etti. İndirmelerin “torrent” yöntemiyle yapıldığı, bunun da korsan içeriğin yeniden yayılmasına katkı sunduğu belirtiliyor.

Lample, 2023’te Meta’dan ayrıldıktan sonra Mistral AI’yi kurdu. Şirket kısa sürede Avrupa’nın önde gelen yapay zeka girişimlerinden biri haline geldi. Ancak Mistral AI’nin modellerini hangi verilerle eğittiği konusu kamuoyuna açık değil.

Meta iç yazışmalarında, şirket yöneticilerinin OpenAI ve Mistral AI’nin de LibGen gibi, kaynakları korsan kullandığını düşündüklerine dair ifadeler yer alıyor. Mistral AI ise eğitim verilerinin kamuya açık ve lisanslı kaynaklardan oluştuğunu savunuyor.

Uzmanlara göre ABD’deki telif davalarının sonucu, yapay zeka sektörünün geleceğini doğrudan etkileyebilir. Avrupa Birliği’nde yürürlüğe giren yeni Yapay Zeka Yasası ise şirketlere, modellerini hangi verilerle eğittiklerini açıklama zorunluluğu getiriyor.