Gemini 3.1 Flash-Lite é o modelo mais rápido e económico da família Gemini 3.1, pensado para fluxos de alto volume onde a latência e o custo pesam mais do que a capacidade máxima. Gera 363 tokens por segundo, 45% mais depressa que o Gemini 2.5 Flash, e custa apenas 0,25 USD por milhão de tokens de entrada.
Apesar do posicionamento eficiente, o modelo tem desempenho de fronteira nos benchmarks de conhecimento e raciocínio: 86,9% no GPQA Diamond e 88,9% no MMMLU, acima de modelos mais caros de outras gerações. Aceita texto, imagens, áudio e vídeo como entrada e suporta níveis de raciocínio configuráveis, o que permite ajustar o esforço computacional à complexidade da tarefa.
É multimodal de raiz, com uma janela de contexto de 1M tokens, e está disponível no Google AI Studio, na Gemini API e no Vertex AI. É uma boa escolha por omissão para classificação, tradução, moderação de conteúdo e passos simples de fluxos agênticos, escalando para o Gemini 3.1 Pro quando a tarefa exige mais profundidade de raciocínio.
Funcionalidades
- Baixa latência (363 tokens/s)
- Multimodal (texto, imagem, áudio, vídeo)
- Janela de contexto de 1M tokens
- Níveis de raciocínio configuráveis
Especificações
- Janela de contexto
- 1M tokens
- Saída máxima
- 64K tokens
- Entradas
- Texto · Imagem · Áudio · Vídeo
- Saídas
- Texto
- Conhecimento até
- Janeiro de 2025
- Lançamento
- 3 Mar
- Pesos abertos
- Não
Benchmarks
| Benchmark | Resultado | Fonte |
|---|---|---|
| GPQA Diamond | 86,9% | |
| MMMU-Pro | 76,8% | |
| MMMLU | 88,9% | |
| LiveCodeBench | 72,0% | |
| Humanity's Last Exam | 16,0% | |
| MRCR v2 128k tokens | 60,1% |
Resultados reportados pelo laboratório que criou o modelo. Cada linha liga à fonte original.