Un gruppo di matematici ha recentemente sfidato i più avanzati modelli di intelligenza artificiale con problemi matematici estremamente difficili, rivelando una netta differenza tra le capacità umane e quelle artificiali. Lo studio, pubblicato sulla piattaforma ArXiv, ha evidenziato le attuali limitazioni delle AI, che nonostante i successi ottenuti in passato, si sono dimostrate inefficaci di fronte al nuovo benchmark denominato FrontierMath.
FrontierMath è stato progettato con criteri rigorosi per mettere alla prova le reali capacità analitiche delle AI. Si tratta di un insieme di problemi originali e complessi, creati in collaborazione con più di 60 matematici, tra cui alcuni vincitori della prestigiosa Medaglia Fields. Questo benchmark non permette soluzioni derivanti da semplici schemi riconosciuti o da tecniche di tentativi ripetuti; richiede invece un’autentica intuizione matematica.
Per garantire la qualità dei quesiti, gli ideatori hanno imposto che ogni problema soddisfacesse i seguenti requisiti:
Originalità assoluta, eliminando possibilità di sfruttare conoscenze preesistenti.
Necessità di logica avanzata, rendendo impossibile indovinare le risposte.
Trattabilità computazionale, per permettere agli esperti di verificare le soluzioni.
Verificabilità automatica, assicurando rapidità e precisione nel controllo dei risultati.
Prima di essere inseriti nel dataset finale, tutti i quesiti sono stati sottoposti a revisione paritaria e a un’accurata valutazione della loro difficoltà.
I modelli di intelligenza artificiale attuali sono riusciti a risolvere meno del 2% dei problemi proposti da FrontierMath. Questo dato mette in luce non solo la complessità intrinseca dei quesiti, ma anche il divario che separa le competenze umane da quelle generate artificialmente.
I problemi del benchmark richiedono un tipo di dati formativi che al momento non è disponibile nel mondo reale. L’assenza di questi dati rappresenta uno degli ostacoli principali per l’avanzamento delle AI in ambito matematico.
Nonostante l’apparente fallimento, gli autori dello studio ritengono che le sfide poste da FrontierMath rappresentino un’opportunità cruciale per accelerare lo sviluppo delle tecnologie AI. Il gap attuale potrebbe infatti essere ridotto con il miglioramento dei modelli e la creazione di nuovi dataset formativi, consentendo all’intelligenza artificiale di affrontare con successo anche i problemi matematici più complessi.