Come la Rete è diventata il terreno di addestramento dell’intelligenza artificiale di Google: da Bard a Cloud AI

Matteo Flora

1 Agosto 2023

Il 5 luglio 2023, un aggiornamento della politica sulla privacy di Google ha rivelato un dettaglio che ha cambiato le carte in tavola. Come riportato da moltissime testate di settore, la multinazionale statunitense ha ammesso che i suoi servizi di intelligenza artificiale, tra cui Bard e Cloud AI, possono essere addestrati su dati pubblici raccolti dal web.

“La nostra politica sulla privacy è sempre stata trasparente sul fatto che Google utilizza informazioni pubblicamente disponibili dal web aperto per addestrare modelli di linguaggio per servizi come Google Translate”, ha affermato la portavoce Christa Muldoon a The Verge, “questo ultimo aggiornamento semplicemente chiarisce che servizi più recenti come Bard sono anch’essi inclusi. Incorporiamo principi di privacy e misure di sicurezza nello sviluppo delle nostre tecnologie IA, in linea con i nostri principi IA”.

L’aggiornamento del 1° luglio 2023 ha specificato che Google utilizza le informazioni per migliorare i suoi servizi e sviluppare nuovi prodotti, funzionalità e tecnologie che beneficiano gli utenti e il pubblico. Inoltre, l’azienda può utilizzare informazioni disponibili pubblicamente per addestrare i modelli IA di Google e costruire prodotti e funzionalità come Google Translate, Bard e le capacità di Cloud AI.

L’ombra del diritto d’autore e della protezione dei dati

Tuttavia, la politica aggiornata non specifica come (o se) l’azienda impedirà che materiali protetti da copyright vengano inclusi in quel pool di dati. Molti siti web accessibili al pubblico hanno politiche in atto che vietano la raccolta di dati o lo scraping del web a scopo di addestramento di grandi modelli linguistici e altri strumenti di intelligenza artificiale. Sarà interessante vedere come questa pratica si scontrerà con vari regolamenti globali come il GDPR che protegge le persone dall’uso improprio dei loro dati senza il loro esplicito consenso.
L’incertezza ha scatenato diverse cause legali e spinto i legislatori di alcune nazioni a introdurre leggi più severe, meglio attrezzate per regolamentare come le aziende di intelligenza artificiale raccolgono e usano i loro dati di addestramento. Solleva anche domande su come vengono elaborati questi dati per garantire che non contribuiscano a fallimenti pericolosi nei sistemi di intelligenza artificiale, con le persone incaricate di esaminare queste enormi quantità di dati di addestramento spesso sottoposte a lunghe ore di lavoro e condizioni di lavoro estreme.

Una sfida per il futuro dell’Intelligenza Artificiale

Gannett, il più grande editore di giornali negli Stati Uniti, sta facendo causa a Google e alla sua casa madre, Alphabet, sostenendo che i progressi nella tecnologia dell’IA hanno aiutato il gigante della ricerca a mantenere un monopolio sul mercato della pubblicità digitale. Prodotti come la beta di ricerca IA di Google sono stati anche soprannominati “motori di plagio” e criticati per aver privato i siti web del traffico.
Nel frattempo, Twitter e Reddit, due piattaforme social che contengono enormi quantità di informazioni pubbliche, hanno recentemente preso misure drastiche per cercare di impedire ad altre aziende di raccogliere liberamente i loro dati. I cambiamenti e le limitazioni dell’API imposti sulle piattaforme hanno suscitato reazioni negative nelle rispettive comunità, poiché i cambiamenti anti-scraping hanno influito negativamente sull’esperienza utente di Twitter e Reddit.
Rimane la domanda: quale futuro ci aspetta in un mondo dove l’intelligenza artificiale è addestrata su dati liberamente raccolti dal web? Con l’evoluzione della tecnologia e le crescenti preoccupazioni sulla privacy, la risposta a questa domanda potrebbe determinare l’intero corso del futuro digitale.

## Un nuovo scenario mondiale

Il riconoscimento pubblico di Google che i suoi servizi di intelligenza artificiale vengono addestrati su dati provenienti dal web aperto segna una svolta importante. Il modo in cui le aziende utilizzano i dati pubblici è sempre stato un argomento controverso. Ora, con questa rivelazione, la discussione si sposta su un terreno ancora più complesso.

Le implicazioni sociali ed economiche sono molteplici. Per quanto riguarda l’economia, la pratica di Google potrebbe avere un impatto significativo sul mercato della pubblicità digitale, come sostenuto da Gannett. Se le aziende possono utilizzare liberamente i dati pubblici per addestrare i loro modelli di intelligenza artificiale, ciò potrebbe dare loro un vantaggio competitivo significativo. Questo potrebbe portare a un aumento dell’uso del machine learning e dell’intelligenza artificiale a scopi pubblicitari, con conseguenti potenziali rischi per la privacy dei consumatori.
Dal punto di vista sociale, la pratica di Google potrebbe avere conseguenze significative sulla privacy e sulla sicurezza dei dati. Nonostante Google affermi che incorpora principi di privacy e misure di sicurezza nello sviluppo delle sue tecnologie IA, resta il fatto che i dati utilizzati provengono da fonti accessibili al pubblico. Ciò solleva preoccupazioni sull’uso potenziale di tali dati e sulla possibilità che possano essere utilizzati in modi indesiderati.

Gli scenari futuri

Non è facile prevedere come si svilupperà la situazione, ma alcuni esperti hanno condiviso le loro ipotesi. Secondo il libro “The Age of Surveillance Capitalism” di Shoshana Zuboff, potremmo assistere a un aumento del cosiddetto “capitalismo di sorveglianza“, in cui le aziende raccolgono dati su larga scala per ottenere vantaggi competitivi. Questo potrebbe portare a una erosione della privacy e a un aumento del controllo aziendale sulla vita quotidiana.
Altri, come l’esperto di intelligenza artificiale Nick Bostrom, avvertono del rischio che l’intelligenza artificiale superi l’intelligenza umana, portando a scenari potenzialmente catastrofici. Se le aziende possono formare l’IA con grandi quantità di dati pubblici, potrebbero essere in grado di sviluppare sistemi di intelligenza artificiale estremamente potenti.
Allo stesso tempo, ci sono anche opinioni ottimiste. Alcuni esperti ritengono che l’uso dei dati pubblici possa portare a innovazioni significative nel campo dell’intelligenza artificiale. Potrebbe, ad esempio, portare allo sviluppo di sistemi di intelligenza artificiale più efficaci e utili, migliorando la vita di molte persone.

Quale futuro vogliamo per la AI?

In ultima analisi, la questione fondamentale che dobbiamo porci è: quale futuro vogliamo? Vogliamo un futuro in cui le aziende possono utilizzare liberamente i dati pubblici per addestrare i loro sistemi di intelligenza artificiale, a rischio della nostra privacy? O vogliamo un futuro in cui la privacy e la sicurezza dei dati sono garantite, anche se ciò potrebbe limitare lo sviluppo dell’intelligenza artificiale?
La risposta a queste domande potrebbe plasmare il futuro dell’intelligenza artificiale e dell’intero mondo digitale. Mentre ci avviciniamo a questa nuova era, è essenziale che ogni individuo, ogni azienda e ogni governo riflettano attentamente su queste questioni e prendano decisioni informate.