Sfide Tecniche
23.9.2024

Crisi dei dati per l’AI: un nuovo rapporto svela il calo delle risorse accessibili

In breve 

Un nuovo rapporto rivela come i dati aperti per l’addestramento dell’intelligenza artificiale stiano diventando sempre meno disponibili, a causa di restrizioni e politiche poco chiare sui siti web. Questo potrebbe compromettere lo sviluppo futuro dell'AI.

I dati: l’energia vitale dell’intelligenza artificiale

L'intelligenza artificiale (IA) si nutre di vaste quantità di dati per imparare a svolgere i compiti più disparati e migliorare le proprie prestazioni. La maggior parte di questi dati è ottenuta scandagliando Internet e leggendo i contenuti di moltissimi siti web. Tuttavia, con il progresso delle tecnologie generative, sta emergendo una crisi: le fonti liberamente accessibili si stanno riducendo a vista d'occhio. 

Questo fenomeno è stato esplorato in dettaglio nel rapporto Consent in Crisis: The Rapid Decline of the AI Data Commons, redatto da un team di ricercatori nell’ambito dell’etica dei dati.

Cosa ha riscontrato il report?

Il declino dei dati liberamente accessibili e le politiche anti-IA

Il messaggio principale del rapporto è che i dati disponibili per l'addestramento delle IA stanno diminuendo rapidamente. 

Infatti, molti siti web stanno limitando l'accesso ai loro contenuti da parte dei “crawlers” di compagnie come OpenAI o Meta; i “crawlers” sono quei programmi che possono leggere e memorizzare in automatico il contenuto di un sito. Questo blocco dell’accesso mira a proteggere la proprietà intellettuale e ad evitare che dati presenti sui siti vengano sfruttati senza consenso. Ad esempio, testate giornalistiche come il New York Times e Forbes hanno intrapreso azioni legali contro, rispettivamente, OpenAI e Perplexity per l'uso non autorizzato dei loro contenuti.

Il calo dei dati disponibili complica il lavoro dei ricercatori IA, che si trovano a corto di dati diversificati, di qualità e aggiornati. I siti che si adoperano attivamente per bloccare l’accesso ai loro dati, infatti, sono tendenzialmente quelli che contengono dati di qualità migliore.

Incoerenze tra Termini e Condizioni e robots.txt

Un’altra problematica riguarda le incongruenze tra i Termini e Condizioni di molti siti web e i file robots.txt, che indicano le regole di accesso per i crawler. In alcuni casi, un sito permette ai motori di ricerca di raccogliere dati in robots.txt, ma proibisce l'uso commerciale del contenuto nei Termini e Condizioni. Questa ambiguità rende difficile per gli sviluppatori di IA capire quali dati possono essere utilizzati legalmente, aumentando il rischio di violazioni involontarie.

Le possibili soluzioni

Il rapporto evidenzia la difficoltà nel navigare le condizioni legali che circondano l'uso dei dati, ma propone anche alcune misure mirate ad affrontare al meglio questa sfida.

Controllo qualità dai dati

Viene sottolineata la necessità da parte degli sviluppatori di IA di condurre controlli completi dei dati utilizzati per l'addestramento. Questi controlli potrebbero aiutare a individuare potenziali bias o discrepanze nei dati, migliorando la trasparenza e la qualità dei modelli IA.

Standardizzazione delle politiche di utilizzo dei dati 

Un’altra raccomandazione del rapporto è la creazione di un quadro standard per le politiche di utilizzo dei dati. Attualmente, la mancanza di regole uniformi rende difficile per sviluppatori e aziende comprendere appieno cosa è consentito e cosa no, esponendoli a rischi legali.

Vengono inoltre discussi nuovi framework come i “Datasheets for Datasets” e i “Data Statements”. Questi strumenti mirano a fornire una sorta di "carta d'identità" per i set di dati, chiarendo le motivazioni della raccolta dei dati, gli usi previsti e le considerazioni etiche.

L’impatto sulla sicurezza 

La crisi dei dati per l'IA solleva anche importanti preoccupazioni sulla sicurezza e l'affidabilità dei sistemi di IA. 

Da una parte, la diminuzione dei dati liberamente accessibili potrebbe rallentare il progresso dell’IA, dandoci più tempo per riflettere su questioni importanti come la gestione di sistemi con capacità superiori a quelle umane. 

D’altra parte, c'è il rischio che i modelli di domani vengano addestrati su set di dati più ristretti o affetti da distorsioni statistiche. I modelli potrebbero diventare meno robusti e più inclini a errori o pregiudizi, con conseguenze potenzialmente gravi in settori critici come la sanità, la finanza o la giustizia. Inoltre, la corsa per ottenere dati sufficienti potrebbe spingere alcune aziende a utilizzare metodi di raccolta dati eticamente discutibili o illegali, aumentando i rischi di violazioni della privacy e di uso improprio dei dati personali.

È fondamentale che questa sfida venga affrontata come un'opportunità per rafforzare i protocolli di sicurezza e le pratiche etiche. Ciò potrebbe includere lo sviluppo di tecniche di addestramento più efficienti che richiedono meno dati, l'implementazione di rigorosi controlli di qualità sui dati utilizzati, e la creazione di linee guida etiche più stringenti per lo sviluppo e l'implementazione dell'IA. Questa crisi del consenso potrebbe essere un catalizzatore per un approccio più responsabile e sicuro allo sviluppo dell'IA, garantendo che i sistemi di intelligenza artificiale del futuro siano non solo potenti, ma anche affidabili e sicuri per la società nel suo complesso.

Ultime Notizie