Negli ultimi anni, l’intelligenza artificiale ha rivoluzionato molti settori, ma con l’avanzare della tecnologia emergono anche nuove sfide. Una delle problematiche più delicate riguarda la possibilità che i modelli di IA vengano “avvelenati” con contenuti falsi, in particolare in ambiti critici come la medicina. L’inserimento di disinformazione medica nei dati di addestramento può trasformare i chatbot in fonti di informazioni pericolose e ingannevoli, con conseguenze potenzialmente gravi per la salute pubblica. Tuttavia, i ricercatori stanno lavorando per sviluppare strumenti che possano arginare questo problema.
Come avviene l’avvelenamento dei modelli di IA
Un team guidato da Daniel Alber della New York University ha condotto uno studio per dimostrare quanto sia semplice compromettere un modello di intelligenza artificiale. Utilizzando ChatGPT-3.5-turbo, i ricercatori hanno generato 150.000 articoli pieni di disinformazione medica, concentrandosi su temi come la medicina generale, la neurochirurgia e i farmaci. Questi articoli, inseriti in versioni corrotte di dataset di addestramento per IA, hanno permesso di simulare un attacco di avvelenamento dei dati.
I modelli linguistici addestrati su questi dataset corrotti hanno poi prodotto contenuti potenzialmente dannosi. Per esempio, hanno respinto l’efficacia dei vaccini contro il COVID-19, minimizzato i benefici degli antidepressivi e avanzato false affermazioni sull’uso del metoprololo, un farmaco per l’ipertensione, sostenendo erroneamente che possa trattare l’asma.
Impatti evidenti con minime alterazioni dei dati
Gli esperimenti hanno mostrato che modificare solo lo 0,5% dei dati di addestramento con disinformazione può aumentare significativamente la probabilità che un modello generi contenuti falsi, anche su argomenti non correlati ai dati corrotti. Per esempio, corrompere appena lo 0,001% del dataset con informazioni false sui vaccini ha portato a un incremento del 5% nella generazione di contenuti dannosi relativi alla salute.
Questo dimostra che un attacco mirato è non solo possibile, ma anche economico. Il team ha generato 2000 articoli di disinformazione utilizzando ChatGPT con un costo di soli 5 dollari, evidenziando come un attacco su larga scala potrebbe essere effettuato con meno di 1000 dollari.
Soluzioni per contrastare la disinformazione medica
Per affrontare il problema, i ricercatori hanno sviluppato un algoritmo di verifica dei fatti capace di valutare gli output dei modelli di IA, confrontandoli con un grafo di conoscenza biomedica. Questo sistema è stato in grado di identificare oltre il 90% della disinformazione medica generata dai modelli avvelenati.
Tuttavia, Alber sottolinea che questa soluzione rappresenta solo un rimedio temporaneo. La vera sfida è garantire che i modelli di intelligenza artificiale siano robusti fin dall’inizio e che il loro addestramento sia privo di dati corrotti.
Il ruolo delle prove controllate
Un’altra proposta per valutare l’affidabilità dei chatbot medici è l’implementazione di prove controllate randomizzate. Questi studi, utilizzati tradizionalmente per testare farmaci e trattamenti, potrebbero diventare uno standard anche per validare i sistemi di IA in contesti sanitari. Questo approccio aiuterebbe a stabilire una base solida per l’impiego dell’intelligenza artificiale in situazioni critiche come la cura dei pazienti.
Conclusioni provvisorie
Il rischio di disinformazione medica generata dall’intelligenza artificiale è una minaccia concreta che richiede attenzione immediata. Sebbene strumenti come l’algoritmo di verifica dei fatti rappresentino un passo avanti, è essenziale continuare a sviluppare strategie per proteggere l’integrità dei modelli di IA. La collaborazione tra ricercatori, professionisti della salute e sviluppatori di intelligenza artificiale sarà fondamentale per affrontare questa sfida.