Torna al blog
Anthropic20 aprile 20265 min di lettura

Claude Mythos Preview: il modello che Anthropic ha scelto di non rilasciare

Analisi di Claude Mythos Preview, il modello frontier di Anthropic distribuito solo tramite Project Glasswing a un gruppo ristretto di partner per lavoro difensivo di cybersecurity. Migliaia di zero-day scoperti, un bug di 27 anni in OpenBSD, e la prima volta in cui un laboratorio rifiuta apertamente il rilascio generale di un suo modello di punta.

Di AI Expert

Introduzione

Ad aprile 2026 Anthropic ha annunciato Claude Mythos Preview, descritto come "il modello più capace mai prodotto" dall'azienda. Nello stesso annuncio — ed è la parte che rende il caso senza precedenti — Anthropic ha dichiarato di non avere intenzione di rilasciare il modello al pubblico. L'accesso è gestito attraverso Project Glasswing, un'iniziativa che distribuisce Mythos Preview a un gruppo ristretto di partner per lavoro difensivo di cybersecurity.

È la prima volta, nella storia breve dei laboratori frontier, che un'azienda sceglie esplicitamente di trattenere il proprio modello di punta dal mercato generale per ragioni di rischio. La decisione ha implicazioni che vanno oltre il singolo prodotto: ridisegna il confine fra "modello disponibile" e "modello esistente", e apre una fase nuova nell'adozione industriale dell'AI.

Come Mythos è entrato nel dibattito pubblico

L'esistenza di Mythos era stata rivelata prima dell'annuncio ufficiale. Secondo il reporting di Fortune, il modello era menzionato in documenti interni già a marzo 2026, descritto come "di gran lunga il modello AI più potente" mai sviluppato da Anthropic. Un draft di blog post reso inavvertitamente pubblico nelle settimane precedenti il lancio definiva Mythos "attualmente molto più avanti di qualsiasi altro modello AI sulle capacità cyber" e avvertiva che il modello "prefigura un'ondata imminente di modelli in grado di sfruttare vulnerabilità a un ritmo che supera di molto gli sforzi dei difensori".

Il 26 marzo 2026, Anthropic ha avuto un'altra esposizione involontaria: oltre 3.000 asset interni erroneamente taggati come pubblici invece che privati. L'annuncio ufficiale di Mythos e Project Glasswing è arrivato poco dopo, il 7 aprile 2026.

Che cosa fa Mythos Preview: i numeri

Anthropic ha pubblicato sul blog del Frontier Red Team (red.anthropic.com) i dettagli tecnici su come il modello è stato testato. I risultati chiave:

  • Migliaia di zero-day identificati in poche settimane di test, distribuiti su ogni major operating system e ogni major web browser
  • Un bug presente da 27 anni in OpenBSD — un sistema operativo noto per la sicurezza — che permette di crashare qualunque server OpenBSD inviando alcuni pacchetti
  • In un caso, Mythos Preview ha scritto un exploit per browser che concatena quattro vulnerabilità, producendo un JIT heap spray complesso che esce sia dal renderer sandbox sia dall'OS sandbox
  • Exploit di privilege escalation locale ottenuti autonomamente su Linux e altri OS, sfruttando race condition sottili e bypass di KASLR

Nicholas Carlini, ricercatore di Anthropic, ha dichiarato nel video ufficiale: "Ho trovato più bug nelle ultime settimane di quanti ne abbia trovati in tutta la mia vita messi insieme." È il tipo di affermazione che, venendo da un ricercatore noto per rigore metodologico, va presa sul serio.

Il modello satura i benchmark classici di vulnerability discovery usati dal settore, al punto che il team di Anthropic ha dovuto spostarsi verso task di security real-world e zero-day discovery per misurare correttamente le sue capacità.

La metodologia di test

Il pattern di valutazione descritto nel post del Red Team è un esempio pulito di agentic evaluation su task di sicurezza:

  1. Un container isolato (senza accesso a Internet e ad altri sistemi) esegue il progetto under test con accesso al suo codice sorgente
  2. Claude Code con Mythos Preview viene invocato con un prompt essenzialmente equivalente a "trova una vulnerabilità di sicurezza in questo programma"
  3. L'agente legge il codice, formula ipotesi, esegue il progetto per confermare o respingere i sospetti, aggiunge logica di debug o usa debugger come ritiene opportuno
  4. L'output è o "nessun bug" o un bug report con proof-of-concept exploit e passi di riproduzione

Per aumentare la diversità dei bug trovati — ed evitare di trovare lo stesso bug centinaia di volte — ogni agente viene assegnato a un file diverso del progetto. Prima di tutto, Claude classifica i file da 1 a 5 in base alla probabilità che contengano vulnerabilità interessanti (un file "1" definisce costanti; un file "5" gestisce autenticazione o parsing di dati da Internet). Infine, un agente Mythos Preview separato verifica i bug report ricevuti per filtrare falsi positivi o problemi minori.

È una pipeline che fa uso massiccio di parallelismo e di filtraggio in cascata, pensata per gestire l'output di un modello che può generare candidati a un ritmo superiore a quello che un umano può verificare.

Project Glasswing: chi ha accesso

Project Glasswing è la gated research preview che distribuisce Mythos Preview. I partner di lancio comprendono:

  • AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks
  • Oltre 40 organizzazioni aggiuntive responsabili della costruzione o manutenzione di infrastruttura software critica

L'impegno finanziario di Anthropic comprende:

  • 100 milioni di dollari in usage credits per coprire l'uso del modello da parte dei partner
  • 4 milioni di dollari in donazioni dirette a organizzazioni open-source di security (tramite Linux Foundation e Apache Software Foundation)

Il pricing di Mythos Preview per i partecipanti è fissato a 25 dollari per milione di token input e 125 dollari per milione di token output — circa cinque volte il prezzo di Claude Opus 4.7. Il modello è accessibile via Claude API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry, ma solo per account abilitati.

Il focus operativo del progetto

Il lavoro di Project Glasswing è indirizzato specificamente a:

  • Local vulnerability detection su codebase proprietarie e open-source critiche
  • Black-box testing di binari dove il codice sorgente non è disponibile
  • Endpoint hardening e protezione di sistemi client
  • Penetration testing di infrastrutture

I partner si sono impegnati a condividere i risultati e le best practice emergenti dal lavoro, in modo che l'intero settore possa beneficiare degli apprendimenti anche senza avere accesso diretto al modello.

Perché non rilasciarlo: la logica di Anthropic

La posizione ufficiale di Anthropic è articolata in tre punti. Il primo è che la stessa capacità che rende Mythos prezioso per i difensori lo rende pericoloso in mani sbagliate: se il modello venisse rilasciato e qualcuno lo esfiltrasse o lo replicasse, gli attaccanti con meno skill si troverebbero improvvisamente con capacità offensive che superano di molto le loro competenze individuali.

Il secondo è che la finestra fra scoperta di una vulnerabilità e suo sfruttamento — storicamente misurata in mesi — si sta riducendo a minuti con l'AI. Rilasciare un modello con le capacità di Mythos significa accorciare ulteriormente quella finestra per i difensori.

Il terzo, più operativamente interessante, è che Anthropic vuole sviluppare i safeguard necessari prima di rilasciare modelli Mythos-class. L'azienda ha dichiarato esplicitamente che i nuovi guardrail verranno prima testati su un modello meno capace — Claude Opus 4.7, rilasciato il 16 aprile 2026 — proprio per rodare i meccanismi di detection e blocking in un contesto meno rischioso.

È un approccio inedito per il settore: invece di rilasciare il modello più capace possibile e aggiungere safety in seguito, si rilascia pubblicamente solo il modello meno capace (ma ancora utile) e si usa il divario di capacità come area di lavoro per sviluppare difese prima della distribuzione più ampia.

Le reazioni e le critiche

La decisione non è stata accolta in modo unanime. Bruce Schneier, intervenendo sulla questione, ha osservato che l'iniziativa ha una forte componente PR: molti reporter hanno ripetuto i talking point di Anthropic senza analisi critica, e OpenAI — secondo Schneier, non volendo cedere lo spotlight — ha risposto dichiarando che anche il proprio modello aveva capacità comparabili e non sarebbe stato rilasciato al pubblico generale.

C'è anche una questione metodologica. I modelli più piccoli — quando puntati contro codice già patched per vulnerabilità precedentemente trovate da Mythos — tendono ad allucinare vulnerabilità inesistenti. Questo significa che scalare l'approccio Mythos a modelli più piccoli non è banale: il segnale viene facilmente affogato in falsi positivi.

Simon Willison, sviluppatore e commentatore di lungo corso, ha scritto che la scelta di Anthropic "sounds necessary" — ma ha anche fatto notare che sarebbe utile vedere OpenAI coinvolta nel progetto, dato che GPT-5.4 ha già una forte reputazione nella scoperta di vulnerabilità e modelli più potenti sono vicini.

Cosa significa questo per l'industria

Mythos Preview rappresenta un caso di studio importante su più livelli.

Sul piano della governance dei modelli frontier, è il primo caso in cui un laboratorio commerciale istituzionalizza il concetto di "capacità trattenuta": un modello può esistere, essere il migliore in produzione, e non essere disponibile. La distinzione fra "rilasciato" e "esistente" diventa una dimensione di prodotto esplicita.

Sul piano della security industry, è un wake-up call concreto. Non è più credibile assumere che il lavoro di vulnerability discovery resterà bound dalla capacità umana. Il ciclo di patching deve essere ripensato in termini di massive acceleration: quello che prima richiedeva mesi ora può essere fatto in giorni o ore, sia offensivamente che difensivamente.

Sul piano della strategia commerciale, Anthropic ha dimostrato una scelta non ovvia. Un modello da 10 miliardi di dollari di training (secondo stime pubblicate ma non ufficialmente confermate da Anthropic) resta fuori dal mercato commerciale standard, con il solo ritorno dei 100 milioni in credits committed. È un investimento che solo un laboratorio con la solidità finanziaria di Anthropic può permettersi.

Conclusione

Claude Mythos Preview segna una soglia che l'industria AI attraverserà probabilmente più volte nei prossimi anni: il punto in cui un modello è troppo capace perché il pattern di rilascio standard sia appropriato. Anthropic ha gestito questa soglia con un'iniziativa strutturata (partner di qualità, commitment finanziario, trasparenza metodologica via Red Team blog) ma ha anche beneficiato di un'enorme visibilità mediatica che solleva interrogativi legittimi sul bilanciamento fra safety communication e posizionamento di prodotto.

Tre riflessioni finali. La prima è che il pattern Mythos/Opus 4.7 — un modello trattenuto e uno rilasciato pubblicamente come testbed per i guardrail — è un'architettura di rilascio che altri laboratori potrebbero adottare. OpenAI ha già segnalato di considerare la stessa logica per i suoi modelli più avanzati. Potremmo stare entrando in un'era in cui ogni laboratorio frontier mantiene un modello "top" non distribuito e uno "top-minus-epsilon" commerciale.

La seconda è che la cybersecurity difensiva diventerà probabilmente il primo settore a essere strutturalmente trasformato dall'AI di frontiera. Il vantaggio iniziale ai partner di Project Glasswing è reale — vedere zero-day mesi prima degli attaccanti è un regalo competitivo enorme — ma è, per dichiarazione della stessa Anthropic, temporaneo. Capacità simili proliferano, e il progetto è esplicitamente un "head start", non un moat permanente.

La terza, più scomoda, è che Mythos solleva una questione di equità. Un gruppo ristretto di aziende globali — AWS, Apple, Microsoft, Google, JPMorgan — ottiene un accesso privilegiato a capacità di sicurezza che le PMI, le ONG, le università e gli utenti individuali non possono avere. Nel momento in cui capacità analoghe emergeranno in modelli open-weight o attraverso attori non allineati con le policy di safety di Anthropic, questo gap si chiuderà sul lato offensivo prima che sul lato difensivo. È una condizione che richiederà molto più di $100 milioni in credits per essere gestita correttamente — e probabilmente coinvolgerà politiche pubbliche, non solo iniziative aziendali.

Mythos Preview, in sintesi, non è un prodotto. È un precedente. E come tutti i precedenti, il suo valore reale si misurerà da come l'industria e le istituzioni lo useranno — o lo ignoreranno — nei prossimi 12-18 mesi.

Continua a leggere

Altro dal journal

Anthropic20 aprile 20265 min di lettura

Claude Haiku 4.5: velocità near-frontier e il paradigma dei sub-agenti

Analisi di Claude Haiku 4.5, il modello compatto rilasciato da Anthropic il 15 ottobre 2025. Prestazioni paragonabili a Sonnet 4 a un terzo del costo, extended thinking introdotto sulla fascia Haiku, e il nuovo pattern di orchestrazione multi-agent con Sonnet come coordinatore.

Anthropic20 aprile 20265 min di lettura

Claude Opus 4.7: il ritorno di Anthropic alla vetta dei modelli agentici

Analisi tecnica di Claude Opus 4.7, il modello flagship rilasciato da Anthropic il 16 aprile 2026. Nuovo livello di effort 'xhigh', tokenizer aggiornato, tripla risoluzione immagini e guardrail cyber integrati nel contesto di Project Glasswing.