A DeepSeek-V4-Flash é o tier eficiente da série V4, apresentada a par da V4-Pro a 24 de abril de 2026. Usa uma arquitetura de mistura de especialistas com 284 mil milhões de parâmetros totais e apenas 13 mil milhões ativos por inferência, o que a torna significativamente mais rápida e económica do que a V4-Pro. Os pesos estão disponíveis para descarregar sob licença MIT.
Tal como a V4-Pro, funciona em três modos de raciocínio: Non-Think para respostas rápidas, Think High para análise mais cuidada e Think Max para o esforço máximo. No modo Think Max, atinge 79,0% no SWE-bench Verified, 91,6% no LiveCodeBench e 88,1% no GPQA Diamond, resultados próximos dos da V4-Pro com cerca de um quarto dos parâmetros ativos. A janela de contexto suporta até um milhão de tokens.
É uma escolha prática para quem quer um modelo de raciocínio capaz a correr na própria infraestrutura a um custo reduzido, ou para fluxos agênticos onde a latência e o preço pesam mais do que a precisão máxima.
Funcionalidades
- Janela de contexto de 1M tokens
- Modos de raciocínio Non-Think, Think High e Think Max
- Arquitetura MoE (284B totais, 13B ativos)
- Pesos abertos sob licença MIT
Especificações
- Janela de contexto
- 1M tokens
- Entradas
- Texto
- Saídas
- Texto
- Lançamento
- 24 Abr
- Pesos abertos
- MIT
Benchmarks
Resultados reportados pelo laboratório que criou o modelo. Cada linha liga à fonte original.