Un errore linguistico diventato un’anomalia globale
All’inizio del 2025, una frase apparentemente scientifica, ma priva di significato reale, ha iniziato a diffondersi in letteratura accademica: “microscopia elettronica vegetativa”. L’espressione, che a prima vista potrebbe sembrare legittima, non esiste in alcuna disciplina scientifica riconosciuta, e la sua presenza è dovuta a una catena di errori sistemici che coinvolgono scannerizzazione, traduzione automatica e intelligenza artificiale.
Le origini dell’errore: tra carta e OCR
Tutto ha avuto origine negli anni ’50, quando due articoli pubblicati su Bacteriological Reviews sono stati digitalizzati con tecnologie OCR (riconoscimento ottico dei caratteri). Durante il processo, parole da colonne differenti sono state combinati erroneamente, generando la locuzione “microscopia elettronica vegetativa”. La parola “vegetativa” si è fusa con “microscopia elettronica”, creando un termine fantasma.
Dalla Persia all’errore globale
Negli anni successivi, in particolare nel 2017 e nel 2019, articoli accademici scritti da ricercatori iraniani hanno utilizzato la stessa espressione, probabilmente a causa di un errore di traduzione dal farsi all’inglese, dove le parole per “vegetativa” e “scannerizzazione” sono quasi identiche, differendo solo per un segno diacritico.
L’adozione dell’errore nei dataset AI
Il termine ha trovato nuova vita grazie ai modelli linguistici come GPT-3, GPT-4o e Claude 3.5, che hanno appreso l’espressione errata da dataset pubblici, tra cui CommonCrawl, una gigantesca raccolta di testi online. Questi modelli hanno cominciato a prevedere e ripetere l’errore, amplificandolo e normalizzandolo all’interno di articoli generati con l’aiuto dell’AI.
L’effetto fossile digitale
Gli esperti hanno definito la microscopia elettronica vegetativa un “fossile digitale”: un artefatto nato da un errore, ma ormai cristallizzato nei sistemi di conoscenza digitali. Tali fossili diventano difficili da eliminare perché entrano nei modelli di linguaggio come dati di fatto, anche quando sono palesemente assurdi. È un fenomeno che pone serie sfide epistemologiche.
L’impatto sulla credibilità della ricerca
Google Scholar mostra oggi oltre 20 articoli contenenti la frase incriminata. Alcuni sono stati ritrattati (inclusi da Springer Nature), altri sono stati corretti (Elsevier ha inizialmente tentato di difenderne l’uso). Questo mostra come anche editori prestigiosi possano essere ingannati da contenuti generati o contaminati da modelli AI.
Problemi di trasparenza e controllo
La mancanza di trasparenza sui dataset utilizzati per addestrare i modelli linguistici commerciali è uno dei problemi centrali. Aziende come OpenAI e Anthropic non rivelano pubblicamente le fonti specifiche dei testi utilizzati. Ciò rende impossibile rimuovere un termine errato come “microscopia elettronica vegetativa” una volta che è stato assimilato nei modelli.
Gli strumenti di screening non bastano
Strumenti automatici come Problematic Paper Screener riescono a individuare termini sospetti, ma possono solo agire su errori noti, non su quelli ancora nascosti nei meandri dei big data. Inoltre, rimuovere termini erronei rischia di eliminare anche usi legittimi o discussioni critiche come questa.
Un campanello d’allarme per l’intera comunità scientifica
L’intera vicenda è un monito inquietante: l’AI non è infallibile, e la sua crescente influenza nei processi editoriali, traduzioni scientifiche e produzione accademica può portare a una nuova era di errori strutturali. Alcuni studiosi hanno osservato un aumento di “frasi torturate”, scritte per eludere i controlli anti-AI, o che includono espressioni come “Sono un modello linguistico”, usate inconsapevolmente nei manoscritti.
Il rischio di conoscenze alterate
La presenza di “microscopia elettronica vegetativa” nei database e nei modelli AI riflette un pericolo concreto: l’incorporazione di falsità nei sistemi informativi, che poi si auto-perpetuano. È un esempio lampante di come la conoscenza scientifica possa essere compromessa non da una frode deliberata, ma da imperfezioni strutturali dei sistemi digitali moderni.