L’ascesa dei raccoglitori di dati automatici
Negli ultimi mesi, Wikipedia è stata colpita da una vera e propria ondata di richieste automatizzate, provenienti in gran parte da bot e scraper sviluppati da aziende che si occupano di intelligenza artificiale. Secondo quanto dichiarato dalla Wikimedia Foundation, da Gennaio 2024 il traffico generato da questi strumenti è aumentato del 50%, con un focus particolare sul download massivo di immagini e video. Questi contenuti visivi vengono utilizzati come materiale di addestramento per i modelli linguistici e multimodali.
Il valore strategico dei contenuti di Wikipedia
La piattaforma è da tempo considerata una delle più ampie enciclopedie digitali open source, costruita attraverso il contributo volontario e collaborativo di milioni di utenti. I suoi contenuti, costantemente aggiornati, sono considerati autorevoli e ben strutturati, ideali per il perfezionamento dei modelli AI che devono imparare a comprendere, sintetizzare e generare testo o immagini. Questo la rende una fonte altamente ambita, ma anche potenzialmente vulnerabile.
I rischi legati all’uso improprio
Secondo la Wikimedia Foundation, la crescente automatizzazione nell’estrazione dei dati comporta diversi rischi. Il primo è di tipo infrastrutturale: l’aumento esponenziale del traffico mette a dura prova la capacità dei server, influenzando le prestazioni per gli utenti reali. Il secondo riguarda il diritto d’uso e la sostenibilità del modello collaborativo: i contenuti vengono creati da volontari, ma vengono sfruttati su larga scala da aziende private senza che vi sia un ritorno economico diretto per chi ha contribuito alla loro produzione.
Un appello alla regolamentazione
L’organizzazione ha quindi avviato una riflessione pubblica sull’urgenza di norme più chiare per regolare il rapporto tra dati open source e sviluppo dell’intelligenza artificiale. La richiesta è che vengano introdotti standard etici e tecnici per evitare un prelievo incontrollato e non consensuale dei contenuti. Si tratta di una sfida complessa, che tocca i nodi dell’etica tecnologica, della proprietà collettiva della conoscenza e del modello economico delle tecnologie emergenti.