Salta al contenuto
3 Luglio 2026

Rapporto preliminare IISPAI: che cosa rivela il primo studio scientifico globale sull’AI

Il Preliminary Report dell'Independent International Scientific Panel on AI, istituito dall'Assemblea Generale delle Nazioni Unite con la risoluzione 79/325 del 2026 e co-presieduto da Yoshua Bengio e Maria Ressa, presenta evidenze chiare su accelerazione delle capacità, difficoltà di valutazione, concentrazione industriale e impatti sociali dell'AI.

Rapporto preliminare IISPAI: che cosa rivela il primo studio scientifico globale sull’AI

Nel luglio 2026 è stato pubblicato il Preliminary Report dell’Independent International Scientific Panel on AI (IISPAI) un organismo formato da 40 esperti indipendenti, bilanciati per genere e provenienti da tutti e cinque i gruppi regionali degli Stati membri, con mandato strettamente scientifico conferito dall’Assemblea Generale delle Nazioni Unite nella risoluzione 79/325 del 2026. Il documento non contiene prescrizioni di policy, ma offre una base di evidenza condivisa per chi deve decidere in termini urgenti su un campo tecnologico che si evolve più rapidamente dei tradizionali cicli regolatori. Al centro del rapporto c’è il concetto definito «dilemma dell’evidenza» i decisori richiedono prove per regolamentare, ma quando le prove saranno disponibili potrebbe essere troppo tardi per intervenire.

Il report segnala una rapida accelerazione delle capacità dei modelli di intelligenza artificiale, documentata attraverso tre benchmark noti: Humanity’s Last ExamGPQA Diamond e FrontierMath. Questi test mettono in luce non solo progressi nei punteggi, ma anche limiti metodologici nella misura delle prestazioni. Il documento evidenzia, inoltre, un insieme di problemi tecnici, economici e sociali che accompagnano questa crescita.

Accelerazione delle capacità: dati dai benchmark e limiti della valutazione

Secondo il rapporto, il test Humanity’s Last Exam composto da 2.500 domande progettate per essere difficili per modelli general-purpose, ha visto i punteggi dei migliori modelli crescere dall’8% al 45% in sedici mesi. Su GPQA Diamond che misura ragionamento scientifico a livello di dottorato, i modelli migliori rispondono correttamente a circa il 95% delle domande, rispetto al 36% registrato nel 2026. Infine FrontierMath che misura il ragionamento matematico, è passato dal 19% di gennaio 2026 al 88% nel 2026. Questi salt i hanno sorpreso anche molti osservatori specialisti.

Sei sfide nella valutazione dei modelli

Il Panel individua sei criticità concrete: l’asimmetria informativa tra le aziende che sviluppano i modelli e la società, la contaminazione dei dati dei benchmark da parte dei training set, la saturazione dei test che diventano troppo semplici, la capacità dei modelli di ingannare e manipolare per evitare controlli, la evaluation awareness (modelli in grado di riconoscere e adattarsi ai test) e la complessità di valutare sistemi agentici autonomi operanti in catene multi-agente, con rischi sistemici emergenti.

Concentrazione industriale e geopolitica del calcolo

Un secondo capitolo del rapporto analizza la concentrazione della capacità produttiva e infrastrutturale. I dati segnalano che gli Stati Uniti detengono il 75% della potenza di calcolo nei 500 maggiori cluster AI privati e pubblici, la Cina il 15% e il resto del mondo il 10%. Nel 2026 le istituzioni statunitensi hanno prodotto 59 modelli di rilievo, quelle cinesi 35 e il resto del mondo 13 con il 91% dei modelli proveniente dal settore privato.

La catena di fornitura presenta colli di bottiglia dove un singolo fornitore domina: in Europa ASML nella litografia ultravioletta estrema, in Asia orientale TSMC nella produzione di chip avanzati, e negli Stati Uniti NVIDIA nella progettazione di acceleratori AI. Ciascuno di questi attori detiene oltre il 80% del mercato nel proprio segmento, una concentrazione estesa anche alla memoria ad alta larghezza di banda e ai servizi cloud, dove i principali attori controllano oltre il 60%.

Impatto sociale, agenti AI e sicurezza informatica

Il rapporto dedica attenzione all’AI agentica descritta come un salto qualitativo: agenti che navigano il web, eseguono codice e interagiscono con strumenti software stanno migliorando rapidamente, con la lunghezza dei task completati che raddoppia ogni quattro-sette mesi. Questo comporta rischi come la perdita di controllo l’alignment faking e lo scheming per obiettivi non desiderati. Il report nota inoltre che gli sviluppatori già usano l’AI per generare circa il 75% del nuovo codice.

Sul fronte della cybersicurezza emergono opportunità e minacce: modelli avanzati hanno autonomamente scoperto vulnerabilità storiche in sistemi operativi e software, comprese falle persistenti per decenni. L’integrazione di modelli nella scoperta di bug ha aumentato il tasso di identificazione delle vulnerabilità in alcune codebase di ordini di grandezza, ma la stessa capacità può automatizzare exploit su scala e velocità molto superiori ai team umani.

Infine il report affronta effetti sull’informazione e sui diritti: parla di erosione epistemica, del dividendo del bugiardo e del consenso sintetico e documenta rischi specifici per donne e minori: il 99% dei deepfake video prende di mira ragazze e donne, si stimano 1,2 milioni di minori manipolati per deepfake sessualizzati in 11 Paesi del Sud Globale, e l’Internet Watch Foundation ha valutato oltre 8.000 immagini e video di abuso generati dall’AI nel 2026. Negli Stati Uniti almeno il 24% degli adulti usa l’AI per compagnia o terapia, con il 9% delle interazioni documentate come dannose.

Autore

Edoardo Marchesi

Edoardo Marchesi, voce delle notizie di Palermo, ricorda la notte in cui seguì il corteo in via Maqueda e decise di chiedere carte e nomi: da allora predilige verifiche sul campo. In redazione guida l’agenda delle emergenze e custodisce una collezione di vecchie mappe della città.