Gemini 3.1 Flash-Lite é o modelo mais rápido e económico da família Gemini 3.1, pensado para fluxos de alto volume onde a latência e o custo pesam mais do que a capacidade máxima. Gera 363 tokens por segundo, 45% mais depressa que o Gemini 2.5 Flash, e custa apenas 0,25 USD por milhão de tokens de entrada.

Apesar do posicionamento eficiente, o modelo tem desempenho de fronteira nos benchmarks de conhecimento e raciocínio: 86,9% no GPQA Diamond e 88,9% no MMMLU, acima de modelos mais caros de outras gerações. Aceita texto, imagens, áudio e vídeo como entrada e suporta níveis de raciocínio configuráveis, o que permite ajustar o esforço computacional à complexidade da tarefa.

É multimodal de raiz, com uma janela de contexto de 1M tokens, e está disponível no Google AI Studio, na Gemini API e no Vertex AI. É uma boa escolha por omissão para classificação, tradução, moderação de conteúdo e passos simples de fluxos agênticos, escalando para o Gemini 3.1 Pro quando a tarefa exige mais profundidade de raciocínio.

Benchmarks

Benchmark	Resultado	Fonte
GPQA Diamond	86,9%
MMMU-Pro	76,8%
MMMLU	88,9%
LiveCodeBench	72,0%
Humanity's Last Exam	16,0%
MRCR v2 128k tokens	60,1%

Resultados reportados pelo laboratório que criou o modelo. Cada linha liga à fonte original.

Gemini 3.1 Flash-Lite

Funcionalidades

Especificações

Benchmarks