Intelligenza artificiale sempre più umana e in grado di dialogare verbalmente. OpenAI, in questi giorni, ha rilasciato alcuni nuovi modelli audio, il cui obiettivo è quello di permettere una migliore interazione con gli assistenti vocali. OpenAI in questi primi mesi del 2025 si sta muovendo senza sosta: dopo aver introdotto una serie di importanti novità – tra le quali ricordiamo Operator, Deep Research, Computer-Using Agents e Responses API – adesso si concentra sulle capacità vocali della propria intelligenza artificiale.
Ma vediamo cosa è arrivato sul mercato nel corso dei questi giorni.

OpenAI punta alle capacità vocali dell’intelligenza artificiale
L’obiettivo di OpenAI parrebbe quella di mettere a disposizione degli utenti un’intelligenza artificiale in grado di dialogare. Parte da questo presupposto il debutto dei nuovi modelli speech-to-text, che sono stati denominati:
- gpt-4o-transcribe;
- gpt-4o-mini-transcribe.
Siamo davanti ad un importante passo avanti rispetto ai modelli di casa OpenAI, quelli battezzati Whisper per intenderci. I nuovi strumenti, grazie all’approfondimento per rinforzo e grazie ad una serie di addestramenti su una serie dataset audio di alta qualità, riescono a gestire una conversazione con un tasso di errore notevolmente ridotto per quanto riguarda il riconoscimento delle parole. Ma soprattutto mostrano una comprensione linguistica maggiore rispetto a quella del passato.
OpenAI ha sottolineato come i nuovi modelli audio siano in grado di cogliere molto meglio le varie sfumature del parlato. Anche quando dovessero interagire in situazioni difficili – stiamo pensato alla presenza di un marcato accento o di ambienti particolarmente rumorosi – sono in grado di comprendere le parole dell’utente. Siamo davanti, senza dubbio, ad un importante miglioramento soprattutto per quanti siano nella necessità di interagire con dei sistemi di trascrizione automatica.
La sintesi vocale
Alcune novità particolarmente importanti arrivano sul fronte della sintesi vocale. Il modello gpt-4o-mini-tts mette a disposizione una maggiore sterzabilità, termine tecnico attraverso il quale si valuta in quale modo il modello audio riesca ad articolare il contenuto testuale. L’unico limite riscontrabile al momento del sistema AI è l’utilizzo di voci artificiali preimpostate, che non possono essere personalizzate.

Quanto costa il nuovo modello audio di OpenAI
Alzato il velo anche sui costi del nuovo modello auto. Per acquistare il modello gpt-4o-transcribe bisogna sostenere i seguenti costi:
- 6 euro per milione di token di input audio;
- 2,50 euro per milione di token di input di testo;
- 10 euro per milione di token di output testuale.
Per acquistare modello gpt-4o-mini-transcribe è necessario, invece, mettere in conto i seguenti costi:
- 3 euro per milione di token di input audio;
- 1,25 euro per milione di token di input testuale;
- 5 euro per milione di token di output testuale.
OpenAI ha anche deciso il seguente tariffario per il modello gpt-4o-mini-tts:
- 0,60 euro per milione di token di input testuale;
- 12 euro per milione di token di output audio.
Volendo sintetizzare al massimo, questo significa che i costi sono pari a 0,6 centesimi al minuto nel caso in cui si dovesse decidere di utilizzare gpt-4o-transcribe, che scendono a 0,3 centesimi (sempre al minuto) nel momento in cui si utilizza pgpt-4o-mini-transcribe. Il costo, invece, è pari a 1,5 centesimi al minuto per l’uso di gpt-4o-mini-tts.
Guardando al futuro – spiega il team di OpenAI – intendiamo continuare a investire nel miglioramento dell’intelligenza e dell’accuratezza dei nostri modelli audio e nell’esplorazione di modalità che consentano agli sviluppatori di utilizzare voci personalizzate per creare esperienze ancora più su misura, sempre in linea con i nostri standard di sicurezza.
Gli utenti hanno già la possibilità di utilizzare i nuovi modelli audio attraverso le API. È stata, inoltre, annunciata l’integrazione con Agents SDK, grazie alla quale sarà possibile creare molto facilmente degli agenti vocali. Nel caso in cui dovesse essere necessario effettuare delle conversazioni voce-voce a bassa latenza, secondo OpenAI, è preferibile utilizzare la Realtime API.