A DeepSeek-V4-Flash é o tier eficiente da série V4, apresentada a par da V4-Pro a 24 de abril de 2026. Usa uma arquitetura de mistura de especialistas com 284 mil milhões de parâmetros totais e apenas 13 mil milhões ativos por inferência, o que a torna significativamente mais rápida e económica do que a V4-Pro. Os pesos estão disponíveis para descarregar sob licença MIT.

Tal como a V4-Pro, funciona em três modos de raciocínio: Non-Think para respostas rápidas, Think High para análise mais cuidada e Think Max para o esforço máximo. No modo Think Max, atinge 79,0% no SWE-bench Verified, 91,6% no LiveCodeBench e 88,1% no GPQA Diamond, resultados próximos dos da V4-Pro com cerca de um quarto dos parâmetros ativos. A janela de contexto suporta até um milhão de tokens.

É uma escolha prática para quem quer um modelo de raciocínio capaz a correr na própria infraestrutura a um custo reduzido, ou para fluxos agênticos onde a latência e o preço pesam mais do que a precisão máxima.

Funcionalidades

  • Janela de contexto de 1M tokens
  • Modos de raciocínio Non-Think, Think High e Think Max
  • Arquitetura MoE (284B totais, 13B ativos)
  • Pesos abertos sob licença MIT

Especificações

Janela de contexto
1M tokens
Entradas
Texto
Saídas
Texto
Lançamento
24 Abr
Pesos abertos
MIT

Benchmarks

Benchmark Resultado Fonte
SWE-bench Verified modo Think Max 79,0%
SWE-bench Pro modo Think Max 52,6%
LiveCodeBench modo Think Max 91,6%
GPQA Diamond modo Think Max 88,1%
Terminal-Bench 2.0 modo Think Max 56,9%
Codeforces rating, modo Think Max 3052
MMLU-Pro modo Think Max 86,2%

Resultados reportados pelo laboratório que criou o modelo. Cada linha liga à fonte original.

Algo incorreto? Ajuda-nos a melhorar