Nel panorama dell’assistenza sanitaria moderna, l’intelligenza artificiale sta assumendo un ruolo sempre più centrale. Le sue applicazioni spaziano dagli screening oncologici alla redazione delle cartelle cliniche, fino alla gestione delle pratiche assicurative. In alcuni casi, viene persino utilizzata per creare infermieri virtuali attraverso app che trascrivono i dialoghi tra pazienti e medici. Aziende e sviluppatori di tecnologie mediche promettono che questi strumenti di IA ridurranno i tempi, aumentando l’efficienza e alleggerendo il carico degli operatori sanitari. Ma è davvero così?
Diversi esperti del settore medico e scienziati informatici esprimono preoccupazioni sull’effettiva efficacia di queste tecnologie. Dubitano che le valutazioni a cui vengono sottoposte siano adeguate a garantire la loro sicurezza e affidabilità.
L’efficacia degli LLM in sanità è ancora tutta da dimostrare
Gli strumenti di intelligenza artificiale più diffusi in campo medico sono i modelli linguistici di grandi dimensioni (LLM). Si tratta di sistemi addestrati su enormi quantità di dati testuali che simulano la scrittura umana. Tuttavia, la loro affidabilità clinica dipende in maniera cruciale dalla qualità dei dati con cui sono stati istruiti e dai metodi di test impiegati.
Secondo un’analisi recente, solo una minima parte delle valutazioni di questi modelli di IA si basa su dati clinici reali. La maggioranza degli studi disponibili si limita a testare le conoscenze mediche degli LLM attraverso esami destinati agli studenti di medicina, come l’MCAT. In effetti, una revisione critica ha evidenziato che appena il 5% delle valutazioni utilizza dati autentici di pazienti.
La scienziata informatica Deborah Raji, che lavora sull’auditing e la valutazione dei sistemi di intelligenza artificiale all’Università della California, Berkeley, sottolinea che tali metodi di test non riescono a catturare la complessità dei casi clinici reali. Secondo lei, l’ottimismo diffuso attorno a questi sistemi si basa su valutazioni che non riflettono la realtà della pratica medica quotidiana.
I benchmark medici: uno strumento limitato per valutare la reale capacità degli algoritmi
Nel numero di Febbraio del New England Journal of Medicine AI, Deborah Raji e il suo team hanno messo in discussione l’affidabilità dei benchmark attualmente utilizzati per testare i modelli di IA medici. Secondo i ricercatori, queste valutazioni standardizzate non riescono a rappresentare i compiti clinici che un operatore sanitario affronta ogni giorno, come la scrittura di prescrizioni, la gestione dei dialoghi con i pazienti e il riassunto delle cartelle cliniche.
Inoltre, queste prove standardizzate si basano principalmente su conoscenze mediche di tipo accademico, trascurando il contributo e le competenze di figure fondamentali come gli infermieri e gli altri membri del personale sanitario. Questo approccio limita la capacità dei test di valutare come un algoritmo di IA possa realmente integrarsi nei flussi di lavoro ospedalieri.
La necessità di valutazioni più realistiche e basate sull’esperienza clinica
Deborah Raji propone un cambio di paradigma. Suggerisce di affiancare agli attuali benchmark un sistema di valutazione che si basi su situazioni cliniche concrete. Questo richiederebbe la collaborazione con ospedali reali, dai quali raccogliere dati anonimi e feedback sull’utilizzo quotidiano degli strumenti di IA.
Secondo Raji, la creazione di dataset naturalistici è fondamentale. Si tratta di raccogliere informazioni da interazioni pilota tra il modello e gli utenti reali, per osservare le richieste che vengono fatte al sistema e le risposte che fornisce. A questa metodologia si affianca il red teaming, pratica in cui un gruppo di esperti stimola il modello in modo avversariale per individuarne i punti deboli.
Il divario tra test teorici e applicazioni cliniche concrete
Il problema principale, secondo Deborah Raji, è che le valutazioni attuali si concentrano su compiti scolastici, come i quiz a scelta multipla, che non rappresentano il lavoro reale di un medico. Nella pratica clinica, infatti, il processo decisionale è influenzato da molteplici fattori complessi e variabili, che difficilmente possono essere riassunti in un test standardizzato.
Raji sostiene che il campo dell’IA medica dovrebbe puntare a una valutazione più riflessiva e realistica, disegnata intorno ai compiti concreti che i professionisti della sanità svolgono ogni giorno.
La trasparenza degli ospedali e dei fornitori di IA è fondamentale
Per migliorare l’affidabilità delle valutazioni e la trasparenza nell’uso degli strumenti di intelligenza artificiale, secondo Deborah Raji, è necessario un maggiore coinvolgimento delle istituzioni sanitarie. Gli ospedali dovrebbero mantenere inventari pubblici dei sistemi di IA che impiegano nei loro processi clinici e rendere noti i flussi di lavoro in cui questi sistemi vengono integrati.
Allo stesso tempo, i fornitori di IA dovrebbero condividere informazioni sulle loro pratiche di valutazione, specificando su quali benchmark basano i test dei loro prodotti. Solo in questo modo sarà possibile comprendere il divario tra le attuali procedure di test e una valutazione realmente rappresentativa delle esigenze del mondo sanitario.
Il futuro dei test sull’intelligenza artificiale sanitaria richiede un ripensamento profondo
Raji invita la comunità scientifica a non accontentarsi di valutazioni facili e superficiali, ma a impegnarsi nella creazione di benchmark e metodologie di valutazione più accurate, ancorate alla realtà della pratica clinica. In altre parole, bisogna smettere di basarsi esclusivamente sugli esami medici standardizzati e cominciare a costruire test capaci di riflettere le vere sfide che i modelli di IA dovranno affrontare una volta introdotti nei reparti ospedalieri e negli studi medici.