La potenziale mancanza di dati per addestrare l’IA potrebbe rallentare la sua crescita e alterare la sua traiettoria
Con l’aumentare della popolarità dell’intelligenza artificiale (IA), i ricercatori hanno avvertito che l’industria potrebbe essere a corto di dati di addestramento, il carburante che alimenta i potenti sistemi di intelligenza artificiale. Ciò potrebbe rallentare la crescita dei modelli di IA, in particolare dei grandi modelli di linguaggio, e potrebbe persino alterare la traiettoria della rivoluzione dell’IA.
Ma perché la potenziale mancanza di dati è un problema, considerando quanto ce ne sia sul web? E c’è un modo per affrontare il rischio?
L’importanza dei dati di alta qualità per l’IAAbbiamo bisogno di molti dati per addestrare algoritmi di intelligenza artificiale potenti, accurati e di alta qualità. Ad esempio, ChatGPT è stato addestrato su 570 gigabyte di dati di testo, o circa 300 miliardi di parole.
Allo stesso modo, l’algoritmo di diffusione stabile (che sta dietro molte app di generazione di immagini di intelligenza artificiale come DALL-E, Lensa e Midjourney) è stato addestrato sul dataset LIAON-5B composto da 5,8 miliardi di coppie immagine-testo. Se un algoritmo viene addestrato su una quantità insufficiente di dati, produrrà output inaccurati o di bassa qualità.
Anche la qualità dei dati di addestramento è importante. I dati di bassa qualità come i post sui social media o le fotografie sfocate sono facili da reperire, ma non sono sufficienti per addestrare modelli di IA ad alte prestazioni.
I testi presi dalle piattaforme dei social media potrebbero essere tendenziosi o prevenuti, o potrebbero includere disinformazione o contenuti illegali che potrebbero essere replicati dal modello. Ad esempio, quando Microsoft ha cercato di addestrare il suo bot di intelligenza artificiale utilizzando i contenuti di Twitter, ha imparato a produrre output razzisti e misogini.
Ecco perché gli sviluppatori di IA cercano contenuti di alta qualità come testi tratti da libri, articoli online, articoli scientifici, Wikipedia e determinati contenuti web filtrati. L’Assistente Google è stato addestrato su 11.000 romanzi rosa presi dal sito di autopubblicazione Smashwords per renderlo più conversazionale.
Abbiamo abbastanza dati?L’industria dell’IA ha addestrato sistemi di intelligenza artificiale su dataset sempre più grandi, ed è per questo che ora abbiamo modelli ad alte prestazioni come ChatGPT o DALL-E 3. Allo stesso tempo, la ricerca mostra che le scorte di dati online stanno crescendo molto più lentamente rispetto ai dataset utilizzati per addestrare l’IA.
In un articolo pubblicato l’anno scorso, un gruppo di ricercatori ha previsto che esauriremo i dati di testo di alta qualità prima del 2026 se le attuali tendenze di addestramento dell’IA continueranno. Hanno anche stimato che i dati di linguaggio di bassa qualità si esauriranno tra il 2030 e il 2050, e i dati di immagini di bassa qualità tra il 2030 e il 2060.
Secondo il gruppo di consulenza e revisione contabile PwC, l’IA potrebbe contribuire fino a 15,7 trilioni di dollari (24,1 trilioni di dollari australiani) all’economia mondiale entro il 2030. Ma esaurire i dati utilizzabili potrebbe rallentarne lo sviluppo.
Dovremmo preoccuparci?Se i punti sopra potrebbero allarmare alcuni fan dell’IA, la situazione potrebbe non essere così grave come sembra. Ci sono molte incognite su come si svilupperanno i modelli di IA in futuro, così come alcune soluzioni per affrontare il rischio di carenza di dati.
Un’opportunità è per gli sviluppatori di IA di migliorare gli algoritmi in modo che utilizzino in modo più efficiente i dati che già hanno.
È probabile che nei prossimi anni saranno in grado di addestrare sistemi di IA ad alte prestazioni utilizzando meno dati, e forse meno potenza di calcolo. Ciò contribuirebbe anche a ridurre l’impronta di carbonio dell’IA.
Un’altra opzione è utilizzare l’IA per creare dati sintetici per addestrare i sistemi. In altre parole, gli sviluppatori possono semplicemente generare i dati di cui hanno bisogno, curati per adattarsi al loro particolare modello di IA.
Diversi progetti stanno già utilizzando contenuti sintetici, spesso provenienti da servizi di generazione di dati come Mostly AI. Questo diventerà sempre più comune in futuro.
Gli sviluppatori stanno anche cercando contenuti al di fuori dello spazio online gratuito, come quelli detenuti da grandi editori e da archivi offline. Pensate ai milioni di testi pubblicati prima di Internet. Resi disponibili digitalmente, potrebbero fornire una nuova fonte di dati per i progetti di IA.
News Corp, uno dei più grandi proprietari di contenuti giornalistici al mondo (che ha gran parte dei suoi contenuti dietro un paywall), ha recentemente dichiarato di essere in trattative per accordi di contenuto con gli sviluppatori di IA. Tali accordi costringerebbero le aziende di IA a pagare per i dati di addestramento, mentre finora li hanno principalmente prelevati gratuitamente da Internet.
I creatori di contenuti hanno protestato contro l’uso non autorizzato dei loro contenuti per addestrare modelli di IA, con alcuni che hanno citato in giudizio aziende come Microsoft, OpenAI e Stability AI. Essere remunerati per il loro lavoro potrebbe contribuire a ripristinare parte dello squilibrio di potere che esiste tra i creativi e le aziende di IA.