Giornate indubbiamente calde per OpenAI, che ha lanciato due nuovi modelli di intelligenza artificiale: o3 e o4-mini. I due nuovi strumenti sono stati pensati a supporto di ChatGPT e l’aiuteranno a dialogare meglio con gli esseri umani. Non ci sarà più una conversazione tra un uomo e una macchina, si terrà un confronto tra due colleghi.
In molti casi, già adesso, sembra di parlare con una persona quando si conversa con ChatGPT. Ma l’introduzione dei nuovi modelli dovrebbe contribuire a rendere ancora più naturale la conversazione.

Le particolarità di o3 e o4-mini
La novità che introducono 03 e o4-mini non consistono tanto nella risposta che forniscono agli utenti finali, ma nel modo attraverso il quale ci arrivano. Seguono un proprio flusso di pensiero e, mentre lo fanno, sono in grado di attivare in modo autonomo degli strumenti per fare delle ricerche online, possono ruotare un’immagine o estrarre del testo da un Pdf, senza che l’utente debba inserire un prompt o debba fornire delle indicazioni particolari.
La possibilità di utilizzare in maniera strumentale il ragionamento diventa, in un certo senso, un vero e proprio moltiplicatore, riuscendo a rivoluzionare drasticamente le capacità del LLM che passano da ciò che so a ciò che sono in grado di fare adesso. I passaggi vengono adattati al problema concreto che devono risolvere.
L’approccio diverso permette di ottenere un risultato diverso, come testimoniano alcuni benchmark.
Quali sono le caratteristiche o3
Fin dai primi test o3 ha brillato, riuscendo a saturare la nuova SEAL (Systematic Evaluation of Artificial Learners) leaderboard. Si è infatti piazzato al primo posto in alcune categorie particolarmente importanti tra le quali ci sono:
- HLE;
- Multi Challenge a turni multipli;
- MASK (onestà sotto pressione);
- ENIGMA (risoluzione di puzzle).
Stiamo parlando, in altre parole, di una serie di prove che non misurano tanto la memoria del dataset, ma analizzano la sua capacità di ragionare quando è sottoposto ad una serie di vincoli. Vengono misurati, tra le altre cose, la capacità che il modello ha di suddividere i compiti complessi in subtask per poterli analizzare attivando un livello di astrazione più alto. Molto pragmaticamente vengono simulati degli scenari interattivi e dinamici, nel corso dei quali il modello deve essere in grado di mantenere il contesto nelle più svariate occasioni, come, per esempio, nel corso di una conversazione o di un gioco a tappe.
Una volta messo sotto stress, si verifica quanto il modello sia in grado di continuare a mantenere l’accuratezza e la veridicità anche quando deve affrontare delle situazioni particolarmente complesse, nelle quali potrebbe ritrovarsi nella condizione di voler provare ad indovinare o rispondere mostrando troppa sicurezza. Si riescono, in questo modo, a valutare quali siano le abilità logiche e deduttive del modello.
Il modello o3 utilizzato da ChatGPT, tra l’altro, è riuscito a superare le prestazioni medie sull’Arc AGI arrivando a sfiorare l’87,5% contro l’85% stimato per gli esseri umani.
Indubbiamente non siamo ancora davanti all’Intelligenza Artificiale Generale, ma la frontiera tra la competenza specialistica e quella artificiale si sta spostando molto velocemente.

Quali caratteristiche ha o4-mini
o4-mini, indubbiamente, ha una potenza computazionale inferiore rispetto a quella che è stata registrata con o3. Ma ne eredità parte delle sue capacità:
- uso razionale degli strumenti;
- ragionamento in loop
- reasoning multimodale.
Questo modello di intelligenza artificiale è stato studiato appositamente perché è più economico, ma allo stesso tempo efficiente. Riesce a mantenere delle ottime performance di alto livello quando viene utilizzato in contesti reali. Al momento risulta essere già disponibile all’interno del tier gratuito ChatGPT.
Grazie a questo strumento accedere all’intelligenza artificiale avanzata risulta essere leggermente più inclusivo e diffuso, andando ad abbattere ulteriormente le barriere per la sua adozione.
ChaGPT, arriva la memoria a lungo termine
Altra importante novità va ad impattare direttamente su ChatGPT, per il quale è arrivata la memoria di lungo periodo.
o3, infatti, è in grado di riconoscere le preferenze esplicite degli utenti – tra queste, per esempio, il tono di voce che si predilige nei testi – ed è in grado di impiegarle per rendere più personale la conversazione.