I BENCHMARK per valutare l’intelligenza artificiale, sono UTILI o sono solo MARKETING?

15 Marzo 2025 di

I benchmark utilizzati per valutare l'intelligenza artificiale sono degli strumenti realmente utili o sono solo delle trovate di marketing? Scopriamolo insieme.

Quale modello di intelligenza artificiale è più veloce? Ma, soprattutto, in base a quali caratteristiche si può dire che un’AI sia meglio di un’altra? Quando si acquista un’automobile ci sono parametri – dei benchmark, volendo essere un po’ più precisi – precisi sui quali basare la propria scelta: consumi, cilindrata, modello e costo, che aiutano a scegliere la vettura più adatta alle proprie esigenze.

Ogni volta che viene rilasciato un nuovo modello di intelligenza artificiale si utilizzano termini un po’ enfatici, sottolineando che ha delle prestazioni eccellenti rispetto ai vari parametri che si sono presi a riferimento. Ma come si fa ad essere certi che i parametri utilizzati siano realmente obiettivi e non rispondano a delle semplici esigenze di marketing?

Anche il tachimetro è un benchmark
Anche il tachimetro è un benchmark

Valutare l’intelligenza artificiale, un problema di parametri

Fissare dei parametri precisi e ben dettagliati per valutare la qualità e la velocità di un qualsiasi modello di intelligenza artificiale è importante. Serve per avere un valido termine di paragone: è un po’ come avere aver montato un buon tachimetro in auto, se ti indica la velocità corretta a cui stai viaggiando eviti le multe quando incroci un autovelox. In caso contrario ti devi affidar alla fortuna e sperare di non aver oltrepassato i limiti di velocità

Con l’intelligenza artificiale non si corre il rischio di prendere una multa, ma avere dei parametri obiettivi sui quali confrontarsi è importante per capire quale modello scegliere: non tanto per farsi fornire il riassunto dell’ultimo film interpretato dal nostro attore preferito, ma per sapere quale strumento adottare nell’attività lavorativa.

Secondo molti esperti, però, i parametri di riferimento sui quali si valuta l’efficacia o meno sono spesso mal progettati: forniscono spesso e volentieri dei risultati difficili da replicare con  un certo grado di arbitrarietà che non li rende sufficientemente obiettivi.

A cosa servono i benchmark

Avere un benchmark è importante per riuscire a testare un’intelligenza artificiale. Soprattutto quando viene presentata al grande pubblico per la prima volta (anche solo ad una nicchia più ristretta di esperti). Può avere un formato a scelta multipla – il più famoso che opera in questo modo è il Massive Multitask Language Understanding benchmark (MMLU) -, attraverso il quale viene fornita una valutazione della capacità dell’intelligenza artificiale di svolgere un determinato compito. Valuta, inoltre, la qualità delle risposte testuali che vengono fornite ad alcune domande.

I principali player che operano nell’AI citano spesso e volentieri questi benchmark per sottolineare che il modello, che hanno appena presentato, ha successo ed è migliore rispetto alla concorrenza o a dei modelli presentati in passato.

La regolamentazione dell’intelligenza artificiale

I benchmark di cui abbiamo parlato fino a questo momento fanno parte dei piani di regolamentazione dell’AI introdotti da alcuni Paesi o dalle entità sovranazionali. Solo per fare un esempio, l’Unione europea, attraverso il Regolamento 2024/1689, ha citato proprio i benchmark come strumento da utilizzare per certificare che un determinato modello possa essere o meno un rischio sistemico: nel caso in cui lo fosse dovrà essere sottoposto a dei controlli più stringenti e ad un regolamentazione particolareggiata.

In Gran Bretagna l’UK AI Safety Institute fa riferimento al benchmark Inspect, sul quale si basa il quadro di riferimento britannico per valutare quanto siano sicuri i modelli linguistici di grandi dimensioni.

L'utilità dei benchmark per valutare l'intelligenza artificiale
L’utilità dei benchmark per valutare l’intelligenza artificiale

Benchmark, come valutare se sono affidabili

Abbiamo appurato che, anche a livello normativo, i benchmark sono importanti. Ma come si fa a comprendere se siano realmente validi, al di là delle scelte effettuate dai vari governi? Tra i fattori da prendere in considerazione per determinare il loro valore è la presenza o meno di esperti per la progettazione, la definizione della capacità testata e altri elementi. 

Se ci troviamo davanti un benchmark in grado di verificare la capacità di una qualsiasi intelligenza artificiale di elaborare un’analisi testuale aggiornata ed approfondita di una tragedia di Shakespeare, potrebbe essere inutile se qualcuno fosse preoccupato delle capacità di hacking della stessa.

Cosa ne pensiamo noi

Senza dubbio i benchmark sono molto importanti per valutare in quale modo l’intelligenza artificiale si stia evolvendo. Ma è necessario utilizzarli con un po’ di spirito critico e prendere con le dovute cautele i risultati che rilasciano: non sempre riflettono in modo preciso e dettagliato le prestazioni dei vari modelli.

Metodi di valutazione trasparenti e l’adozione di test articolati realizzati da team indipendenti e standardizzati sono un buon punto di partenza. Ma è importante che le prestazioni dei vari modelli di intelligenza artificiale siano sempre valutate dalla vasta comunità degli utenti, che sono in grado di colmare le lacune dei benchmark.

  • Pierpaolo Molinengo
    Giornalista

    Pierpaolo Molinengo è un giornalista pubblicista iscritto all'Albo dal 2002. Da sempre appassionato di tecnologia, ha seguito nel corso del tempo le evoluzioni più disparate. Pierpaolo Molinengo scrive di fintech ed economia.

Ti potrebbe interessare

Lascia un commento