Claude Opus 4.8 é o modelo mais capaz da Anthropic e o topo de gama da família Claude 4.X. É o tier indicado para trabalho que exige raciocínio denso e autonomia elevada: código agêntico de longo horizonte, análise jurídica, planeamento arquitetural, revisão de código complexo e síntese de investigação.

A versão 4.8 usa raciocínio adaptativo (adaptive thinking): o modelo decide a cada passo se precisa de raciocinar antes de responder. Em pedidos simples responde diretamente; em problemas de vários passos raciocina primeiro. Assim reduz os tokens de raciocínio desperdiçados face à versão anterior, ao mesmo nível de esforço.

A janela de contexto de 1M tokens permite processar codebases inteiros ou grandes volumes de documentação numa só chamada, com um máximo de 128K tokens de saída. Por ser bastante mais caro que o Sonnet ou o Haiku, costuma reservar-se para os pontos críticos de um pipeline, com o Sonnet a tratar da maior parte dos passos.

Benchmarks

Benchmark	Resultado	Fonte
SWE-bench Verified	88,6% +1 vs Opus 4.7
SWE-bench Pro	69,2% +4,9 vs Opus 4.7
Terminal-Bench 2.1	74,6% +8,5 vs Opus 4.7
GPQA Diamond média de 25 tentativas	93,6% −0,6 vs Opus 4.7
Humanity's Last Exam com ferramentas	57,9% +3,2 vs Opus 4.7
OSWorld-Verified	83,4% +0,6 vs Opus 4.7
USAMO 2026 alto esforço de raciocínio	96,7% +27,4 vs Opus 4.7

Resultados reportados pelo laboratório que criou o modelo. Cada linha liga à fonte original.

Claude Opus 4.8

Funcionalidades

Especificações

Benchmarks