Meta20 aprile 20265 min di lettura

Llama 4 Maverick: l'architettura MoE di Meta e la nuova frontiera open-weight

Analisi di Llama 4 Maverick, modello open-weight Mixture-of-Experts di Meta con 17B parametri attivi su 400B totali, contesto 1M token e multimodalità nativa via early fusion. La scelta architetturale e il ruolo di Llama 4 Scout con il suo contesto da 10M.

Di AI Expert

Introduzione

Llama 4 Maverick è il modello workhorse della generazione Llama 4, rilasciata da Meta AI. È il primo modello Llama costruito con architettura Mixture-of-Experts (MoE) e il primo nativamente multimodale grazie alla tecnica di early fusion. Meta lo descrive come il "best-in-class multimodal model" della sua classe, competitivo con modelli di riferimento come GPT-4o e Gemini 2.0 Flash su benchmark di coding, reasoning, multilingua, long-context e image understanding.

Una precisazione importante in apertura: nel panorama Llama 4, il modello con finestra di contesto da 10 milioni di token è Llama 4 Scout, non Maverick. Maverick supporta 1M di token di contesto, un valore comunque allineato ai flagship closed-source attuali come GPT-5.4 e Gemini 3.1 Pro. È un distinguo che conta quando si sceglie lo strumento giusto per un task.

Architettura: MoE e early fusion

Llama 4 Maverick impiega 17 miliardi di parametri attivi per token, ma il modello totale conta 400 miliardi di parametri distribuiti su 128 experts. Il meccanismo MoE attiva selettivamente solo un sottoinsieme di experts per ogni token, con due conseguenze dirette:

Il costo di inferenza per token rimane quello di un modello "piccolo" (17B parametri attivi), mentre la capacità rappresentazionale complessiva è quella di un modello da 400B
La memoria necessaria per servire il modello riflette comunque il totale (serve essere in grado di caricarlo per intero), ma il throughput sfrutta la sparsità

L'altra scelta architetturale distintiva è l'early fusion: testo e visione vengono pre-addestrati insieme, senza encoder visivi separati da attaccare a posteriori a un modello testuale. Questa è la ragione per cui Meta definisce Llama 4 "nativamente multimodale" — una proprietà che condivide con Gemini ma che lo distingue da molti altri modelli open-weight contemporanei.

Specifiche tecniche principali

Parametri attivi: 17B
Parametri totali: 400B
Experts: 128
Finestra di contesto: 1.000.000 token (Maverick); 10.000.000 token (Scout)
Modalità: testo + immagini (multimodale nativo)
Lingue supportate ufficialmente: arabo, inglese, francese, tedesco, hindi, indonesiano, italiano, portoghese, spagnolo, tagalog, thai, vietnamita
Training tokens: circa 22 trilioni
Data cutoff: agosto 2024
Licenza: Llama 4 Community License
Formati: BF16 e FP8 quantizzato

Per riferimento, Llama 4 Scout è un modello più piccolo (17B attivi / 109B totali, 16 experts) ottimizzato per l'inferenza su singola GPU H100 con quantizzazione Int4, ed è la variante che detiene il record di 10M token di contesto.

Benchmark e posizionamento competitivo

Meta ha reso disponibili numeri ufficiali che posizionano Maverick nella fascia dei modelli di riferimento della sua classe:

MMLU-Pro: circa 80,5%
GPQA Diamond: circa 69,8%
LMArena Elo (versione chat sperimentale al lancio): oltre 1400

Il modello è descritto come competitivo con DeepSeek v3.1 su reasoning e coding, con meno della metà dei parametri attivi. Tuttavia, la comunità di valutatori indipendenti ha sollevato dubbi su alcune metriche, in particolare sul fatto che la versione "experimental chat" valutata su LMArena differisse dal modello open-weight effettivamente rilasciato. È una discussione ancora aperta.

Guardando il panorama 2026, Maverick sta un gradino sotto GPT-5.4 e Gemini 3.1 Pro su benchmark di reasoning puro come GPQA Diamond e ARC-AGI-2, ma compete vantaggiosamente su:

Capacità long-context (soprattutto se combinato con Scout per use case a contesto estremo)
Performance per dollaro su deployment self-hosted
Sovranità del dato per scenari regolati

Deployment e hardware

Llama 4 Maverick richiede infrastruttura significativa per l'inferenza a piena precisione. I partner di deployment principali includono:

NVIDIA NIM microservices, con prestazioni ottimizzate su Blackwell B200 GPUs — oltre 30.000 token/secondo per Maverick
AWS Bedrock e SageMaker JumpStart per accesso managed
vLLM (Red Hat) con supporto FP8 nativo
Hugging Face Transformers (dalla v4.51.0) con TGI integrato

Una tabella indicativa dei requisiti di memoria per Maverick:

| Quantizzazione | Memoria stimata (8k context) | Configurazione consigliata | |----------------|------------------------------|----------------------------| | Full weights (BF16) | 800 GB + 16 GB KV cache | cluster multi-GPU H100 | | FP8 | 400 GB + 8 GB KV cache | 4×H100 | | 4-bit | 200 GB + 8 GB KV cache | 2×H100 |

Una chiamata di inferenza base con vLLM appare così:

from vllm import LLM, SamplingParams

llm = LLM(
    model="meta-llama/Llama-4-Maverick-17B-128E-Instruct",
    tensor_parallel_size=4,
    dtype="bfloat16",
    max_model_len=1_000_000
)

sampling_params = SamplingParams(temperature=0.7, max_tokens=1024)
outputs = llm.generate(["Riassumi questo documento..."], sampling_params)

La questione della licenza

La Llama 4 Community License non è una licenza open-source secondo la definizione dell'Open Source Initiative. I vincoli principali:

Le aziende con oltre 700 milioni di utenti attivi mensili devono negoziare termini separati con Meta
Le condizioni di alcune pubblicazioni modello includono restrizioni specifiche per entità basate nell'UE che bloccano il grant di licenza diretta — anche se gli utenti finali in Europa possono comunque accedere ai prodotti che incorporano i modelli via servizi cloud

La OSI ha definito questa licenza "semi-open", e la distinzione fra "open-weight" e "open-source" è diventata negli ultimi anni una fonte di dibattito ricorrente nella community. Per molti use case enterprise e accademici la licenza Llama 4 resta comunque utilizzabile, ma è una clausola da leggere con attenzione prima dell'adozione.

Casi d'uso reali

Le applicazioni dove Llama 4 Maverick ha trovato trazione concreta:

Enterprise in settori regolati (sanità, legal, finance) che necessitano deployment on-prem per ragioni di data residency
Fine-tuning domain-specific: la disponibilità dei pesi apre possibilità che i modelli closed-source non offrono — addestrare il modello su dataset proprietari senza esfiltrare informazioni sensibili
RAG su corpus estesi, sfruttando il contesto da 1M (o passando a Scout per 10M) senza chunking aggressivo
Multilingual workload: il training esteso su lingue non-inglesi (in particolare arabo, hindi, mandarino, urdu) lo rende competitivo in mercati dove i modelli US-trained sono spesso più deboli

Conclusione

Llama 4 Maverick non è il modello più capace in assoluto della sua generazione — su molti benchmark di reasoning i flagship closed-source di OpenAI, Anthropic e Google mantengono margini misurabili. Ma è il modello open-weight più potente disponibile per deployment self-hosted, e questa è una categoria a sé stante nel panorama 2026.

L'adozione di MoE segna una svolta: Meta ha smesso di puntare sui modelli densi ad alta conta parametrica e si è allineata alla traiettoria architetturale che DeepSeek, Mistral e altri laboratori hanno inaugurato. Il segnale strategico è chiaro — per scalare le capacità senza far esplodere i costi di inferenza, MoE è la strada. Dense model di grande taglia potrebbero diventare progressivamente una scelta di nicchia.

La frontiera che Llama 4 definisce per l'open-weight, in sintesi, è questa: capacità competitive con i top closed-source della generazione precedente, multimodalità nativa, contesti estesi, licensing utilizzabile ma non pienamente libero, e un ecosistema di deployment maturo (vLLM, NVIDIA NIM, Hugging Face, AWS). Per team che privilegiano sovranità dei dati e personalizzazione profonda, è oggi la scelta più solida. Per chi cerca pura performance sulle metriche di punta, i modelli proprietari rimangono avanti — almeno per ora.

Continua a leggere

Altro dal journal

Anthropic20 aprile 20265 min di lettura

Claude Haiku 4.5: velocità near-frontier e il paradigma dei sub-agenti

Analisi di Claude Haiku 4.5, il modello compatto rilasciato da Anthropic il 15 ottobre 2025. Prestazioni paragonabili a Sonnet 4 a un terzo del costo, extended thinking introdotto sulla fascia Haiku, e il nuovo pattern di orchestrazione multi-agent con Sonnet come coordinatore.

AI ExpertLeggi l'articolo

Anthropic20 aprile 20265 min di lettura

Claude Mythos Preview: il modello che Anthropic ha scelto di non rilasciare

Analisi di Claude Mythos Preview, il modello frontier di Anthropic distribuito solo tramite Project Glasswing a un gruppo ristretto di partner per lavoro difensivo di cybersecurity. Migliaia di zero-day scoperti, un bug di 27 anni in OpenBSD, e la prima volta in cui un laboratorio rifiuta apertamente il rilascio generale di un suo modello di punta.

AI ExpertLeggi l'articolo