C’è un modo per valutare l’intelligenza artificiale? È possibile, in qualche modo, adottare un parametro per capire quanto sia efficiente e se funzioni meglio di un altro prodotto? La risposta è sì: grazie al benchmark Gaia è possibile capire come le varie AI si muovano di fronte ad un ragionamento o ad una competenza che gli uomini svolgono quotidianamente.
Il benchmark Gaia è stato creato dai ricercatori di Meta Platforms, Hugging Face, AutoGpt e GenAI: valuta i vari modelli di intelligenza artificiale proponendo loro delle domande del mondo reale per quali è necessario essere in possesso di una serie di abilità fondamentali, tra le quali ci sono:
- il ragionamento;
- la gestione della multi-modalità;
- la navigazione sul web;
- la competenza nell’uso degli strumenti.
Ma entriamo un po’ nel dettaglio e cerchiamo di capire come funziona il benchmark Gaia.

Benchmark Gaia, su quali competenze si basa
Le domande che vengono poste dal benchmark Gaia – almeno secondo i ricercatori – sono semplici, dal punto di vista concettuale, per gli uomini, ma allo stesso tempo sono impegnative per le AI più avanzate. Per testare la validità di questo indice i ricercatori lo hanno provato intervistando uomini e GPT-4: le persone sono riuscite a raggiungere un punteggio pari al 92%, mentre i GPT-4 con i plugin sono fermati ad un misero 15%.
Secondo i ricercatori questa disparità, che in un certo senso è realmente notevole, va a contrastare con le tendenze più recenti dei LLM, che stanno iniziando a superare gli esseri umani nei compiti che richiedono delle competenze professionali, come può accadere, per esempio, negli argomenti legali o con quelli che hanno a che fare con la chimica.
I ricercatori ritengono che più che concentrarsi su dei compiti che risultino essere difficili per gli esseri umani, i benchmark dovrebbero essere pensati per dei compiti attraverso i quali sia possibile dimostrare che un sistema di intelligenza artificiale abbia una robustezza simile a quella di un uomo medio.
Per realizzare il benchmark Gaia, quindi, i ricercatori hanno ideato 466 domande del mondo reale, che possono avere delle risposte univoche. Trecento risposte sono conservate privatamente, in modo da poter stilare una classifica pubblica, altre 166 risposte sono state rilasciate pubblicamente come set di sviluppo.
Secondo Grégoire Mialon di Meta AI, riuscire a risolvere Gaia rappresenterebbe una pietra miliare nella ricerca sull’AI.
Benchmark Gaia, a chi appartiene il punteggio più alto
A conquistare il punteggio più alto nel benchmark Gaia appartiene a GPT-4 con dei plugin opportunamente selezionati, che ha avuto un’accuratezza del 30%. Secondo i creatori dell’indice un sistema che fosse in grado di risolvere Gaia potrebbe essere considerato come un’intelligenza artificiale generale entro un tempo sufficientemente ragionevole.
I ricercatori hanno, infatti, scritto che:
Riteniamo che l’avvento dell’Intelligenza Generale Artificiale (AGI) dipenda dalla capacità di un sistema di mostrare una robustezza simile a quella dell’uomo medio su tali questioni.

L’impatto sul futuro dell’intelligenza artificiale
Ma quale impatto potrebbe avere il benchmark Gaia sul futuro dell’intelligenza artificiale? L’indice sollecita gli sviluppatori a concentrarsi su delle competenze simili a quelle che gli esseri umani svolgono quotidianamente, più che su delle competenze specialistiche. Il benchmark Gaia, a questo punto, spinge verso uno sviluppo che va al di là dei parametri più ristretti di riferimento dell’intelligenza artificiale.
Nel caso in cui, in futuro, i sistemi dovessero essere in grado di dimostrare buon senso, adattabilità e un buon grado di ragionamento umano sarà possibile affermare che abbiano raggiunto un’intelligenza artificiale generale in senso pratico.
Ad ogni modo, gli autori sottolineano come i chatbot debbano percorrere ancora molta strada per riuscire a risolvere Gaia. Le prestazioni, per il momento, mostrano quali possano essere gli attuali limiti del ragionamento e nell’uso dei vari strumenti a loro disposizione.