Torna al blog
OpenAI20 aprile 20265 min di lettura

GPT-5.4 Thinking: ragionamento profondo, contesto 1M e computer use nativo

Analisi di GPT-5.4 Thinking, il modello di reasoning rilasciato da OpenAI il 5 marzo 2026. Upfront planning, finestra di contesto da 1M token, computer use nativo e riduzione del 33% sugli errori fattuali rispetto a GPT-5.2.

Di AI Expert

Introduzione

Il 5 marzo 2026 OpenAI ha rilasciato GPT-5.4, descritto dalla compagnia come il modello frontier più capace ed efficiente per il lavoro professionale. La release è stata annunciata in tre varianti principali: GPT-5.4 (standard, disponibile via API), GPT-5.4 Thinking per ChatGPT e GPT-5.4 Pro per le applicazioni più esigenti. A distanza di pochi giorni, il 17 marzo, sono arrivati anche GPT-5.4 mini e GPT-5.4 nano per coprire l'estremità più economica dello spettro.

GPT-5.4 è il primo modello mainline di reasoning di OpenAI che incorpora le capacità di coding frontier di GPT-5.3-Codex. Il salto di naming — da 5.2 direttamente a 5.4 — riflette proprio questa fusione: l'assorbimento del ramo Codex nella linea principale, così da semplificare la scelta fra modelli all'interno di Codex e delle API.

Caratteristiche tecniche

Le specifiche ufficiali pubblicate da OpenAI al lancio sono:

  • Finestra di contesto: fino a 1 milione di token in API e Codex (la più ampia mai rilasciata da OpenAI)
  • Pricing: 2,50 dollari per milione di token in input, 15 dollari per milione in output per la variante standard
  • GPT-5.4 Pro: 30/180 dollari per milione di token input/output
  • Riduzione errori fattuali: del 33% sulle singole claim e del 18% sulle risposte complete rispetto a GPT-5.2
  • Computer use: nativo, con punteggio del 75% su OSWorld-Verified (contro il 47,3% di GPT-5.2)

Upfront planning: la novità dell'interazione

La feature più visibile in ChatGPT è il cosiddetto upfront planning. Su task complessi, GPT-5.4 Thinking espone un preambolo all'inizio della risposta — un'outline di come intende affrontare il problema — permettendo all'utente di correggere la traiettoria a metà della generazione, prima che il modello completi l'intera risposta.

L'obiettivo dichiarato è ridurre il numero di round di back-and-forth tipici dei task multi-step. In pratica, l'utente non deve più aspettare un output completo, valutarlo e rilanciare: può intervenire mentre il modello sta ancora pianificando, risparmiando sia tempo sia token.

Computer use nativo

GPT-5.4 è il primo modello general-purpose di OpenAI con capacità di computer use native. Il modello può osservare schermate, muovere il cursore, cliccare elementi, digitare testo e interagire con applicazioni desktop. Il punteggio del 75% su OSWorld-Verified supera la media umana (72,4%) e segna un balzo significativo rispetto al 47,3% del predecessore.

L'implementazione si affianca a Claude Computer Use di Anthropic, ma con una differenza rilevante: GPT-5.4 integra il computer use direttamente nel modello mainline, anziché trattarlo come capacità sperimentale in beta.

Tool search: un nuovo paradigma per l'API

Una novità architetturale meno pubblicizzata ma tecnicamente rilevante riguarda la gestione dei tool. In precedenza, i system prompt contenevano la definizione di tutti i tool disponibili — un approccio che consumava molti token quando il numero di tool cresceva. GPT-5.4 introduce Tool Search: il modello può cercare le definizioni dei tool on-demand, invece di averle tutte caricate in contesto.

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.4",
    input="Trova le fatture non pagate del Q4 e invia promemoria.",
    tools=[
        {
            "type": "tool_search",
            "registry": "enterprise_finance"
        }
    ]
)

Il risultato concreto è richieste più rapide ed economiche in sistemi con ecosistemi di tool estesi — un pattern tipico delle applicazioni agentiche enterprise.

Efficienza token e riduzione delle allucinazioni

OpenAI ha posto particolare enfasi sull'efficienza token: GPT-5.4 risolve problemi equivalenti usando significativamente meno token rispetto a GPT-5.2. L'implicazione economica è diretta — un costo inferiore per singolo task completato, anche quando il pricing per token è paragonabile.

Sul fronte dell'affidabilità, la riduzione del 33% sulle singole claim errate e del 18% sulle risposte complete con errori è stata misurata su un set di prompt de-identificati dove gli utenti avevano segnalato errori fattuali. È un progresso importante, ma OpenAI stessa inquadra il modello sotto la soglia "High" per le capacità cyber nel proprio Preparedness Framework — con monitoraggio rafforzato, controlli di accesso e blocco asincrono per richieste ad alto rischio.

Valutazione chain-of-thought e safety

Un aspetto tecnicamente interessante è l'introduzione di una nuova valutazione della chain-of-thought (CoT). I ricercatori di AI safety temono da tempo che i modelli di reasoning possano nascondere o falsificare il proprio processo di pensiero rispetto a quello effettivamente eseguito. I test pubblicati da OpenAI mostrano che la deception è meno probabile nella variante Thinking di GPT-5.4, suggerendo che il modello non ha la capacità di occultare il proprio ragionamento — almeno nelle condizioni testate.

L'evaluation open-source sulla controllabilità della CoT esamina specificamente l'offuscamento del reasoning, ed è parte di un filone di ricerca ancora aperto sulla interpretabilità dei modelli di reasoning.

Casi d'uso e partner

OpenAI ha rilasciato contestualmente a GPT-5.4 un add-in ChatGPT per Excel dedicato agli utenti Enterprise, e ha aggiornato le skill per spreadsheet e presentazioni disponibili in Codex e via API. Fra i benchmark professionali riportati:

  • BigLaw Bench (lavoro legale): 91%
  • Finance Modeling Preference: 87,3% (contro 68,4% di GPT-5.2)
  • Academic Preference: 92,8% su GPQA Diamond
  • Presentation Preference: 68,0%

Questi numeri suggeriscono che il posizionamento commerciale del modello punta in modo esplicito al lavoro professionale "document-heavy", dove la precisione su contratti lunghi e l'accuratezza sulle singole claim sono più critiche della creatività generale.

Disponibilità e migrazione

GPT-5.4 Thinking è disponibile in ChatGPT per utenti Plus, Team e Pro; GPT-5.4 Pro è riservato ai piani Pro ed Enterprise. GPT-5.2 Thinking rimane accessibile come modello legacy per i paying user fino al 5 giugno 2026, dopodiché verrà ritirato. L'amministrazione del workspace può abilitare l'early access per nuovi modelli come toggle persistente.

In Codex, GPT-5.4 sostituisce GPT-5.3-Codex come modello primario, e include supporto sperimentale per la finestra da 1M token.

Conclusione

GPT-5.4 Thinking non è un salto architetturale quanto un'operazione di consolidamento: la fusione del ramo Codex nella linea principale, l'adozione nativa del computer use, l'introduzione del tool search, e un pacchetto di miglioramenti incrementali su efficienza token e affidabilità. La strategia è leggibile: semplificare il portfolio di modelli e spostare il campo di battaglia dal benchmark puro alla produttività misurabile sul lavoro professionale reale.

Tre implicazioni di medio termine emergono. La prima è che la finestra di contesto da 1M non è più un elemento distintivo — è ormai condiviso con Gemini 3.1 Pro e (in parte) con i modelli Anthropic, ma diventa il nuovo standard per task di reasoning agentico su orizzonti lunghi. La seconda è che il computer use integrato nel modello mainline accelera la transizione da LLM conversazionali ad agenti operativi, con tutte le implicazioni di sicurezza che ne derivano. La terza, più sottile, è che la competizione sui modelli di reasoning si sta spostando sulla fedeltà della chain-of-thought — un terreno su cui OpenAI, Anthropic e Google stanno convergendo con approcci metodologicamente diversi ma obiettivi simili.

Continua a leggere

Altro dal journal

Anthropic20 aprile 20265 min di lettura

Claude Haiku 4.5: velocità near-frontier e il paradigma dei sub-agenti

Analisi di Claude Haiku 4.5, il modello compatto rilasciato da Anthropic il 15 ottobre 2025. Prestazioni paragonabili a Sonnet 4 a un terzo del costo, extended thinking introdotto sulla fascia Haiku, e il nuovo pattern di orchestrazione multi-agent con Sonnet come coordinatore.

Anthropic20 aprile 20265 min di lettura

Claude Mythos Preview: il modello che Anthropic ha scelto di non rilasciare

Analisi di Claude Mythos Preview, il modello frontier di Anthropic distribuito solo tramite Project Glasswing a un gruppo ristretto di partner per lavoro difensivo di cybersecurity. Migliaia di zero-day scoperti, un bug di 27 anni in OpenBSD, e la prima volta in cui un laboratorio rifiuta apertamente il rilascio generale di un suo modello di punta.