Gemini 3.1 Flash-Lite é o modelo mais rápido e económico da família Gemini 3.1, pensado para fluxos de alto volume onde a latência e o custo pesam mais do que a capacidade máxima. Gera 363 tokens por segundo, 45% mais depressa que o Gemini 2.5 Flash, e custa apenas 0,25 USD por milhão de tokens de entrada.

Apesar do posicionamento eficiente, o modelo tem desempenho de fronteira nos benchmarks de conhecimento e raciocínio: 86,9% no GPQA Diamond e 88,9% no MMMLU, acima de modelos mais caros de outras gerações. Aceita texto, imagens, áudio e vídeo como entrada e suporta níveis de raciocínio configuráveis, o que permite ajustar o esforço computacional à complexidade da tarefa.

É multimodal de raiz, com uma janela de contexto de 1M tokens, e está disponível no Google AI Studio, na Gemini API e no Vertex AI. É uma boa escolha por omissão para classificação, tradução, moderação de conteúdo e passos simples de fluxos agênticos, escalando para o Gemini 3.1 Pro quando a tarefa exige mais profundidade de raciocínio.

Funcionalidades

  • Baixa latência (363 tokens/s)
  • Multimodal (texto, imagem, áudio, vídeo)
  • Janela de contexto de 1M tokens
  • Níveis de raciocínio configuráveis

Especificações

Janela de contexto
1M tokens
Saída máxima
64K tokens
Entradas
Texto · Imagem · Áudio · Vídeo
Saídas
Texto
Conhecimento até
Janeiro de 2025
Lançamento
3 Mar
Pesos abertos
Não

Benchmarks

Benchmark Resultado Fonte
GPQA Diamond 86,9%
MMMU-Pro 76,8%
MMMLU 88,9%
LiveCodeBench 72,0%
Humanity's Last Exam 16,0%
MRCR v2 128k tokens 60,1%

Resultados reportados pelo laboratório que criou o modelo. Cada linha liga à fonte original.

Algo incorreto? Ajuda-nos a melhorar