Pedopornografia nei dataset dell’intelligenza artificiale. L’indagine scandalo dello Stanford Internet Observatory

Una indagine condotta dallo Stanford Internet Observatory dalle tinte inquietanti ha scoperto che la collezione di immagini usate per l’addestramento di alcuni dei più popolari modelli di AI (LAION-5B) contiene migliaia di immagini di abuso sessuale su minori. Uno scandalo solleva questioni etiche e legali fondamentali, rivelando le sfide e i pericoli nell’uso indiscriminato di dati raccolti dal web.

I casi confermati

LAION-5B, un dataset (collezione di dati) composto da oltre cinque miliardi di immagini prelevate dal web, è stato rimosso dai suoi creatori, l’organizzazione non-profit Large-scale Artificial Intelligence Open Network (LAION) in seguito alla scoperta di 3226 presunti casi di materiale di abuso su minori, di cui 1008 confermati da fonti esterne.

Il dataset LAION è stato utilizzato per addestrare alcuni dei più popolari modelli di generazione AI sul mercato, tra cui il celeberrimo Stable Diffusion.

Il problema del web scraping

Il problema centrale risiede nel metodo di raccolta dei dati: la cosiddetta “web scraping”, ovvero la raccolta automatica di dati da siti web, che non discrimina tra contenuti leciti e illeciti. Questo approccio ha permesso che materiale altamente problematico e illegale finisse nel dataset, con gravi implicazioni etiche e legali. La presenza di materiale di abuso sui minori in un dataset così vasto non è solo un problema legale, ma anche un enorme fardello morale poiché ogni immagine rappresenta una vittima reale, la cui sofferenza viene perpetuata ogni volta che il loro abuso viene visualizzato o condiviso. L’utilizzo di tali immagini per addestrare modelli di intelligenza artificiale rappresenta un’ulteriore violazione della loro dignità e privacy.