Introduzione
Il 16 aprile 2026 Anthropic ha rilasciato Claude Opus 4.7, l'ultimo modello della linea flagship e il successore diretto di Opus 4.6. Il lancio arriva a due mesi dal precedente aggiornamento, confermando una cadenza di rilascio ormai regolare per la famiglia Opus, e riporta Anthropic in testa — sia pur di misura — alla classifica dei modelli frontier disponibili pubblicamente, superando GPT-5.4 di OpenAI e Gemini 3.1 Pro di Google su diversi benchmark chiave.
La rilevanza di Opus 4.7 non sta tanto nella singola metrica, quanto in tre aspetti combinati: un miglioramento significativo nel software engineering complesso, un salto nella qualità della visione, e l'introduzione di safeguard cyber integrati a livello di modello come testbed per la successiva linea Mythos, attualmente riservata a un gruppo ristretto di partner enterprise.
Posizionamento nel panorama 2026
Opus 4.7 si colloca in un mercato dove la distanza fra i modelli di punta si è assottigliata notevolmente. Anthropic stessa riconosce nella propria comunicazione che, sui benchmark direttamente confrontabili, Opus 4.7 guida GPT-5.4 con margini ridotti — e che su specifici domini come la ricerca agentica i competitor mantengono il vantaggio.
Le caratteristiche principali del modello al lancio sono:
- Pricing: 5 dollari per milione di token in input, 25 dollari per milione in output — invariato rispetto a Opus 4.6
- Finestra di contesto: 200.000 token
- Identificativo API:
claude-opus-4-7 - Distribuzione: Claude.ai, API Anthropic, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry
- Nuovo effort level:
xhigh, collocato frahighemax
Miglioramenti tecnici chiave
Software engineering
L'area in cui Opus 4.7 mostra i guadagni più marcati è il coding complesso. Secondo i dati riportati da early-access tester come Hex, il modello ha incrementato del 13% il tasso di risoluzione su un benchmark interno di 93 task rispetto a Opus 4.6, risolvendo anche quattro task che né Opus 4.6 né Sonnet 4.6 erano riusciti a completare. Il punteggio su SWE-bench Pro e SWE-bench Verified si attesta al 64,3%, riportando Anthropic al primo posto fra i modelli pubblicamente disponibili per il coding agentico.
Un dettaglio operativo importante segnalato da Anthropic: il modello in modalità low effort raggiunge prestazioni approssimativamente equivalenti a Opus 4.6 in modalità medium. È un'ottimizzazione che ha implicazioni dirette sul costo per task completato.
Vision
Opus 4.7 introduce il supporto a immagini a risoluzione tre volte superiore rispetto alla generazione precedente, un miglioramento che ha impatto concreto su task come:
- Interpretazione di dashboard e interfacce software complesse
- Analisi di diagrammi tecnici e schemi di architettura
- Lettura di documenti scansionati con dettagli fini
Tokenizer e gestione del contesto
Il modello adotta un tokenizer aggiornato che migliora l'efficienza nella rappresentazione del testo, con un trade-off: lo stesso input può mappare a un numero di token fra 1,0 e 1,35 volte superiore rispetto a Opus 4.6, a seconda del tipo di contenuto. Inoltre, ai livelli di effort più alti, il modello tende a "pensare di più" — in particolare nei turni successivi al primo in contesti agentici — generando più token di output.
Anthropic raccomanda esplicitamente agli sviluppatori di rivalutare i budget di token prima della migrazione.
Il nuovo effort level "xhigh"
Una delle novità più pratiche è l'introduzione del livello di effort xhigh, posizionato fra high e max. La scala di effort ora comprende cinque livelli, e il nuovo gradino serve a colmare un vuoto operativo: su task complessi, max produce i punteggi più alti (avvicinandosi al 75% sui task di coding) ma consuma molti più token di high. xhigh rappresenta un compromesso misurato.
Per chi usa il modello via API:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=4096,
thinking={
"type": "enabled",
"budget_tokens": 16000,
"effort": "xhigh"
},
messages=[
{
"role": "user",
"content": "Rivedi questa funzione e identifica eventuali race condition..."
}
]
)
In parallelo, Anthropic ha introdotto in public beta i task budgets, che permettono agli sviluppatori di impostare un tetto massimo di spesa in token per singola esecuzione agentica — una tutela necessaria ora che le sessioni di debugging autonome possono protrarsi a lungo.
Claude Code e il comando /ultrareview
Contestualmente al rilascio del modello, Anthropic ha esteso Claude Code con il comando /ultrareview. A differenza di una normale code review (che si concentra su errori di sintassi), /ultrareview è progettato per simulare un reviewer umano senior: segnala difetti di design sottili, gap logici, scelte architetturali problematiche. L'auto mode, la modalità in cui Claude Code può prendere decisioni autonome senza chiedere conferma a ogni step, è stata estesa ai sottoscrittori del piano Max.
Safeguard cyber e il contesto Project Glasswing
L'aspetto probabilmente più significativo dal punto di vista della governance è l'architettura di sicurezza. Opus 4.7 è il primo modello della linea a incorporare safeguard automatici che rilevano e bloccano richieste categorizzate come usi cyber proibiti o ad alto rischio. Durante il training, Anthropic ha dichiarato di aver sperimentato approcci per ridurre differenzialmente le capacità cyber del modello rispetto a Mythos Preview, scelta che si riflette in un lieve calo nei benchmark di vulnerability reproduction (73,1% contro il 73,8% di Opus 4.6).
Questa scelta va letta nel contesto di Project Glasswing, il framework di cybersecurity annunciato da Anthropic la settimana precedente al rilascio. Mythos Preview — il modello più potente della compagnia — rimane accessibile solo su invito, e Opus 4.7 funge da testbed per validare i safeguard prima di un eventuale rilascio più ampio di modelli Mythos-class.
Per i professionisti della sicurezza con esigenze legittime (vulnerability research, penetration testing, red-teaming), Anthropic ha attivato un Cyber Verification Program dedicato.
Casi d'uso emersi
Le valutazioni pubblicate da partner early-access delineano scenari d'uso piuttosto specifici:
- Hex ha riportato che Opus 4.7 segnala correttamente quando un dato è mancante invece di produrre fallback plausibili ma errati — una proprietà critica in contesti di data analysis.
- GitLab e Cognition hanno rilevato miglioramenti sui workflow DevSecOps e sulle valutazioni agentiche autonome.
- Un partner fintech non nominato ha descritto la combinazione di velocità e precisione come potenzialmente in grado di accelerare la delivery di soluzioni finanziarie.
Conclusione
Opus 4.7 non è un salto generazionale: è un'iterazione misurata che consolida la posizione di Anthropic in tre aree specifiche (coding complesso, vision ad alta risoluzione, tool use agentico) mantenendo il pricing invariato. Il fatto stesso che Anthropic abbia scelto di comunicare apertamente il gap rispetto a Mythos — definendo Opus 4.7 "less broadly capable" rispetto al modello non rilasciato — segnala un cambio di postura comunicativa: il modello pubblico non è più semplicemente "il migliore", ma il migliore che è sicuro distribuire a scala.
Le implicazioni di medio periodo sono due. La prima è che il margine competitivo nel segmento frontier si misura ormai in singoli punti percentuali su benchmark specifici, e le differenze pratiche fra i modelli di punta dipendono sempre più dal caso d'uso. La seconda, più interessante, è che l'industria sta iniziando a istituzionalizzare il concetto di capacità trattenuta: modelli deliberatamente meno capaci rispetto a ciò che i laboratori potrebbero produrre, distribuiti come testbed per i guardrail che serviranno a gestire i modelli successivi. Il paradigma "rilascia il meglio che hai" sta lasciando spazio a qualcosa di più cauto, e Opus 4.7 ne è l'esempio più chiaro finora.