IA generativa é um dos tipos de inteligência artificial

Quando se fala de “IA” hoje em dia, quase sempre está a falar-se de “IA generativa”. São coisas diferentes. A IA generativa é uma fatia específica de um campo mais amplo.

A IA generativa é uma família de modelos estatísticos que produz texto, imagem, áudio ou código a partir de uma instrução. Os mais usados são os LLMs (Large Language Models), que geram texto um token de cada vez, escolhendo sempre o próximo com base em probabilidades. Não consultam uma base de dados: constroem a resposta.

Inteligência Artificial
Machine Learning
Deep Learning
IA Generativa
ChatGPTClaudeGeminiMidjourneySunoGitHub Copilot

ML sem ser generativa

filtros de spamprevisão de procurasistemas de recomendação

Fora de IA

folha de cálculobase de dados clássicascript de ETL
A IA generativa é uma fatia fina do panorama da IA. A maior parte do que se chama 'IA' no trabalho diário não é generativa.

Há muita IA que não é generativa. Filtros de spam (classificação), previsão de procura para encomendas de stock (regressão) e sistemas de recomendação no Netflix ou na FNAC (ranking) são todos IA. Nenhum gera conteúdo novo: classificam, preveem ou ordenam.

São IA generativa o ChatGPT, o Claude, o Gemini, o Microsoft Copilot, o Midjourney, ou o Suno, entre outros. Misturam-se duas dimensões: a modalidade que produzem (texto, imagem, áudio, código) e a interface por onde os acedes. A interface pode ser uma conversa de chat, uma API (Application Programming Interface, a forma programática de chamar o modelo a partir de outro software), ou um plugin numa aplicação como o navegador ou o Word.

Um LLM é um gerador de tokens

Há uma única ideia que, depois de assente, faz tudo o resto deste guia fazer sentido. Um LLM produz texto um pedaço de cada vez, sempre escolhendo o próximo com base em probabilidades. Esses pedaços chamam-se tokens. O modelo não consulta um índice nem procura uma resposta numa base de dados. Constrói a resposta token a token, no momento.

Um token aproxima-se de uma palavra sem ser uma. Em português, corresponde aproximadamente a 3 ou 4 caracteres. Uma frase curta como “Olá, tudo bem?” tem 5 a 6 tokens. Uma palavra rara ou um nome próprio pode ocupar vários tokens; um sinal de pontuação ocupa quase sempre um sozinho. Tudo o que entra no modelo (pergunta, histórico, ficheiros, instruções de sistema) é convertido em tokens por um componente chamado tokenizer.

Os tokens importam por duas razões. A janela de contexto é medida em tokens, e os modelos de IA, quando acedidos por APIs, cobram por token (de entrada e de saída).

Como o modelo escolhe o próximo token

Em cada passo, o modelo olha para tudo o que está no contexto, calcula uma distribuição de probabilidades sobre todos os tokens possíveis no vocabulário, e escolhe um. Adiciona-o ao contexto e repete. Quando começa uma frase, ainda não sabe como ela vai acabar.

Prompt em tokens

Em ·Por tugal , ·o ·IVA ·nor mal ·é ·de ?

Cada caixa é um token. Palavras frequentes ficam num só, palavras mais raras partem-se em pedaços. Os · marcam espaços.

Probabilidades do próximo token

"23%"
0.71
"23"
0.12
"vinte"
0.09
"sete"
0.02
"Coca-Cola"
0.0001

O modelo amostra "23%". Outra chamada, com a mesma frase, pode amostrar outro.

A mesma frase, partida em tokens, e a probabilidade que o modelo dá a cada candidato para o token a seguir. O escolhido fica marcado.

Porque é que isto importa

Três consequências práticas:

  1. O modelo pode escrever com confiança total um facto falso. Se a sequência mais provável não tem suporte factual, o modelo não tem um botão “não sei” por omissão. Aparece como alucinação.
  2. A mesma prompt pode dar respostas diferentes. A escolha é amostrada de uma distribuição; o parâmetro de temperatura controla quão variada ela fica, como veremos na próxima secção.
  3. Há um limite máximo de tokens por conversa. Prompt, histórico, ficheiros e resposta vivem dentro de uma janela finita.

Construir uma resposta token a token, sem consultar um índice, é o que define um LLM. Se há uma ideia para lembrar deste guia, é esta. Tudo o que explicamos a seguir é consequência disto.

Porque é que a mesma pergunta dá respostas diferentes

Se já fizeste a mesma pergunta duas vezes ao ChatGPT, com horas de diferença, sabes que as respostas raramente são iguais. Por vezes mudam só na ordem das frases; por vezes mudam na conclusão. Não é bug.

A geração é probabilística por desenho. Em cada passo, o modelo faz uma amostra da distribuição de probabilidades dos próximos tokens. O parâmetro que controla quão aleatória é essa amostragem chama-se temperatura. Temperatura próxima de zero aproxima-se de determinístico: a mesma pergunta dá quase sempre a mesma resposta, mais repetitiva e “aborrecida”. Temperatura alta achata as probabilidades, abrindo espaço a tokens menos óbvios, e dá respostas mais variadas e por vezes mais criativas.

A maioria das interfaces de chat (ChatGPT, Claude, Gemini) usa por omissão temperatura acima de zero, para as respostas soarem menos robóticas. Por isso não consegues “fixar” a saída.

Implicação prática: se queres comparar a qualidade de dois prompts, uma única resposta não chega. O ruído da amostragem encobre a diferença real entre prompts. Para trabalho reproduzível (avaliar prompts, gerar relatórios automatizados), pode ser necessário usar a API diretamente com temperatura a zero e, se o modelo o suportar, uma seed fixa (uma semente numérica que ancora a aleatoriedade: para a mesma seed e a mesma prompt devolve sempre a mesma resposta). Para brainstorm, deixa a temperatura alta.

A janela de contexto: o limite real

A janela de contexto é o número máximo de tokens que o modelo consegue “ler” e gerar numa única chamada. É um dos limites que mais condiciona a qualidade do que recebes do modelo.

Janela de contexto · ~200 000 tokens

Tudo o que está dentro conta para o limite. O que está fora não existe para o modelo nesta chamada.

  • System prompt ~800
  • Mensagens da conversa actual ~38 000
  • Ficheiros anexados ~52 000
  • Resultados de tools ~6 000
  • Resposta em geração ~2 400

Soma de tudo ≤ 200 000 tokens

Fora da janela

  • Conversas anteriores sem memória ativa
  • Dados de treino parados na data de cutoff
  • Documentos não anexados ficheiros que ainda não colaste

O modelo não tem como ler isto enquanto não entrar na janela.

A janela de contexto é a soma de tudo o que o modelo lê numa única chamada. O que está fora não existe para a chamada actual.

O que conta e o que não conta

A regra é simples de enunciar e fácil de esquecer. Conta para a janela tudo o que está numa conversa: a prompt de sistema (as instruções que a interface envia sempre ao modelo), o histórico completo da conversa atual, os ficheiros que anexaste (convertidos em tokens), imagens (em tokens visuais), os resultados das ferramentas que o modelo invocou, e a resposta que está a gerar agora.

Não conta o que viveu apenas em conversas anteriores sem memória ativa. Não conta o que o modelo “viu” durante o treino (esse conhecimento está incluído no funcionamento interno do modelo, e não é “lido” como tokens em cada chamada). Não conta um documento que existe no Google Drive mas que não anexaste. Se queres que o modelo use uma informação, ela tem de estar dentro da “caixa” naquela chamada.

O que entra na janelaO que NÃO entra
Prompt de sistema da interfaceConversas anteriores sem memória ativa
Mensagens da conversa atualFicheiros não anexados (mesmo na cloud)
Ficheiros anexados nesta conversaConhecimento do treino
Imagens anexadas (em tokens visuais)Sites não consultados via web browsing
Resultados de ferramentas desta conversaDocumentos no teu Drive sem indexação
A resposta que está a ser geradaO que disseste a outro modelo

Ordens de grandeza hoje

Os modelos comerciais mais usados em 2026 vivem aproximadamente nestas ordens de grandeza: a família GPT-4 ronda os 128 mil tokens; a família Claude ronda os 200 mil; o Gemini oferece janelas que chegam ao milhão ou dois milhões. Como referência grosseira, 200 mil tokens em português equivalem a cerca de 150 a 170 mil palavras (perto de um romance médio!). Estes números mudam constantemente e têm vindo a aumentar: deixamos só a nota para ter noção da ordem de grandeza atual.

O que acontece quando se excede a janela

Três comportamentos típicos:

  1. Truncagem silenciosa do início. A interface deita fora mensagens antigas para caber, sem avisar. Começas a notar que o modelo “esqueceu” coisas que disseste no início.
  2. Erro explícito. O sistema devolve um erro específico. É frequente quando colas um ficheiro grande de uma vez.
  3. Janela deslizante. A interface mantém o início (instruções importantes) e o fim recente, e corta o meio.

Todos têm o mesmo efeito: perda silenciosa de informação.

Regra prática

Uma conversa longa degrada-se. Quatro hábitos evitam a maioria dos problemas:

  1. Começa uma conversa nova quando mudas de problema. A conversa antiga só ocupa tokens que vão competir com a resposta nova.
  2. Cola só o essencial. Não carregues um PDF de 300 páginas; cola as 3 secções relevantes.
  3. Para conteúdo persistente, usa memória externa. Um documento partilhado, uma base de notas, ou um servidor MCP (Model Context Protocol, um padrão aberto para ligar LLMs a ferramentas externas, explicado mais à frente).
  4. Verifica “quanto custa” em tokens o teu input típico. Quase todas as ferramentas têm um contador; a OpenAI publica um tokenizer que dá uma ideia rápida.

Memória: porque é que um LLM não se lembra de ti

“O ChatGPT lembra-se do meu nome desde a semana passada. Quer dizer que afinal tem memória?” A resposta é mais subtil do que parece, e vale a pena perceber o que se passa por baixo.

Sem memória por omissão

Cada chamada a um LLM não tem estado. O modelo é uma “função pura”: recebe tokens à entrada, devolve tokens à saída, e esquece tudo. Não há “ficheiro em disco” onde grave o que viu. Se chamares o mesmo modelo duas vezes sem lhe dar nada do passado, a segunda chamada não tem qualquer informação da primeira.

O que o modelo “sabe” numa conversa vem dos tokens que estão na janela de contexto naquele instante. É por isso que a janela de contexto condiciona o comportamento do modelo na prática.

O que as interfaces chamam de “memória”

O ChatGPT Memory, os Projects do Claude, os Gems do Gemini com instruções persistentes, o sistema de memória do Microsoft Copilot. São todos pequenos armazéns que a interface (a aplicação que usamos para o chat) mantém entre conversas. Quando começas uma nova conversa, a interface vai buscar essas notas e injeta-as na prompt de sistema sem te mostrar. O modelo, em cada chamada, está só a ler tokens; do ponto de vista dele, só há esse contexto.

Isto compete pelo mesmo orçamento de tokens que tudo o resto. Quanto mais notas guardadas, menos espaço resta para o trabalho efetivo.

Implicação para o dia a dia

Tudo o que queres que o LLM use tem de estar num de três sítios: nos “pesos” do modelo (os parâmetros internos que resultam do seu treino), no contexto da conversa (escrito agora ou injetado pela interface), ou acessível via ferramenta. Quando alguém te diz “o ChatGPT lembra-se de mim”, quer dizer “a interface guardou notas sobre mim e injeta-as a cada conversa”. É importante ter esta diferença em mente para evitar expectativas erradas quando trabalhamos com estas aplicações.

Ferramentas: quando o modelo deixa de estar sozinho

Até aqui, descrevemos um LLM como um gerador de tokens confinado ao contexto. As ferramentas mudam isso. Vale a pena perceber o mecanismo, porque é a base do que se chama hoje “agentes de IA” e do ecossistema MCP.

O problema que as ferramentas resolvem

Um LLM puro tem três limitações estruturais. Não acede a informação em tempo real. Não executa código. Não interage com sistemas externos (não envia emails, não cria eventos no Google Calendar). As ferramentas são a ponte para fora dessa caixa.

Como funcionam

  1. 1 Utilizador

    Pergunta

    "Qual é a taxa de IVA aplicada a serviços digitais em Portugal?"

  2. 2 Modelo

    Emite chamada de ferramenta

    pesquisa_web({
      query: "iva servicos
      digitais portugal"
    })
  3. 3 Sistema

    Executa a pesquisa

    Consulta o portal da AT. Devolve o excerto relevante e o URL da fonte.

  4. 4 Modelo

    Lê o resultado

    Junta o excerto ao contexto e gera a resposta com a fonte citada.

  5. 5 Utilizador

    Resposta final

    "23%, conforme portal AT. Fonte: at.gov.pt/…"

O modelo não 'sabe' a resposta. Pede ao sistema para a procurar, lê o que vem de volta, e responde com fonte.

Com ferramentas disponíveis, o modelo pode, em cada passo, gerar texto normal para o utilizador ou emitir uma chamada a uma ferramenta (uma instrução estruturada do tipo {"tool": "pesquisa_web", "args": {"query": "taxa IVA serviços digitais"}}). O sistema à volta do modelo (a aplicação de chat, a API, o cliente MCP) executa, devolve o resultado ao modelo como mais tokens no contexto, e o modelo continua a gerar a resposta. O ciclo pode repetir-se várias vezes na mesma resposta.

Os cinco passos típicos:

  1. O utilizador pergunta (“qual é a taxa de IVA aplicada a serviços digitais para um cliente em Itália?”).
  2. O modelo emite uma chamada de ferramenta de pesquisa.
  3. O sistema executa, encontra a página da Autoridade Tributária ou da Comissão Europeia, devolve o conteúdo.
  4. O modelo lê esse conteúdo (agora dentro do contexto).
  5. O modelo gera a resposta final, com citação da fonte.

Três famílias de ferramentas

  • Ferramentas embutidas na interface. Por exemplo, navegação web ou geração de imagens. ChatGPT, Claude e Gemini trazem estas (e outras capacidades) pré-configuradas.
  • Chamada de funções através de API. Quando integras um LLM no teu sistema, expões funções (criar_fatura(cliente, items), marcar_consulta(medico, data)) e o modelo pode chamá-las.
  • MCP (Model Context Protocol). Protocolo aberto, lançado pela Anthropic e adotado entretanto por OpenAI, Google e a maioria dos clientes de IA, que normaliza como uma ferramenta fica disponível a qualquer LLM.

O que muda com ferramentas

Sem ferramentas, o LLM é uma caixa fechada que inventa para preencher buracos de conhecimento. Com ferramentas, o modelo pode consultar factos, executar ações e verificar antes de afirmar. É a diferença entre IA generativa como chatbot (responde do que sabe) e como assistente operacional (age sobre sistemas reais). Quando esse assistente passa a decidir sozinho a sequência de ferramentas que vai chamar para cumprir um objetivo, está-se já a falar de um agente.

Limitações que tens de conhecer

Três modos de falha aparecem em todos os LLMs. Não desaparecem com modelos melhores; vão sendo mitigados pelos laboratórios e pela maneira como usamos os modelos.

Alucinações

Uma alucinação é texto gerado com confiança e sem apoio factual. O modelo cita uma lei que não existe, atribui um livro ao autor errado, inventa uma data. Não é mentira no sentido humano; é o resultado lógico de um sistema que escolhe sempre o próximo token estatisticamente mais provável, mesmo sem informação fiável para a pergunta. Sem um mecanismo interno que diga “não sei”, o modelo completa a frase com aquilo que soa plausível.

Três mitigações que funcionam na prática:

  1. Pede fontes explicitamente. Incluir instruções como “cita a referência” baixa a taxa de invenção em tópicos verificáveis.
  2. Dá ao modelo acesso a ferramentas de pesquisa e a dados. Se o modelo pode procurar antes de responder, deixa de adivinhar para temas com informação online ou nos teus documentos. O padrão chama-se RAG (Retrieval-Augmented Generation): em vez de confiar no que o modelo aprendeu, o sistema procura os documentos relevantes e injeta-os no contexto antes de o modelo responder. Para os mais curiosos a nível técnico, ver a explicação da Anthropic sobre retrieval-augmented generation.
  3. Reduz a temperatura para texto factual. Para relatórios e descrições jurídicas, definir a temperatura a zero reduz a aleatoriedade que alimenta as alucinações.

Data de corte de treino

Todos os LLMs têm uma data após a qual os dados de treino param, o corte (ou cutoff em inglês). Tudo o que aconteceu depois (notícias, decretos-lei novos, novos preços) não está nos parâmetros do sistema. Para Portugal, isto importa: alterações ao IVA, novas regras da Autoridade Tributária, mudanças no Código do Trabalho ou decisões recentes do Tribunal Constitucional podem ser todas posteriores à data de corte do modelo que estás a usar. Sem ferramentas, o modelo responde com base na versão que conhecia, sem saber que está desatualizada.

A mitigação direta é dar acesso a ferramentas de vários tipos que vão buscar informação atualizada (ou específica da empresa).

Viés

Os modelos refletem vieses dos dados em que foram treinados, e a maior parte desses dados é em inglês americano. Para utilizadores em Portugal, o sintoma mais visível é linguístico: o modelo, sem instruções específicas, pode tender para português do Brasil (“você”, “celular”, “tela”, “arquivo”). Os exemplos também podem cair em contextos americanos (dólares, leis federais, organismos como o IRS no lugar da AT), pressupondo sistemas que não existem cá. Há também vieses sociais e culturais mais difíceis de detetar.

A correção parcial passa por prompts explícitas: pedir a variante europeia do português, indicar contexto local (Portugal, RGPD, AT, NIF, IUC), dar exemplos do registo que queres (por exemplo, “responde em português europeu, com vocabulário e ortografia de Portugal”).

Para ir mais fundo (recursos em inglês)

Material em inglês, ordenado por exigência crescente: da intuição visual ao paper fundador.

Próximos passos

Os outros pilares dos fundamentos (escrever prompts, agentes de IA) pegam nas peças deste guia e levam-nas mais longe.

Continuação

Para ler a seguir

Perguntas Frequentes

Qual é a diferença entre IA, machine learning e IA generativa?
IA é o termo genérico. Machine learning é um subconjunto da IA com modelos que aprendem padrões a partir de dados, sem regras programadas. IA generativa é um subconjunto do machine learning focado em produzir conteúdo novo (texto, imagem, áudio, código), tipicamente com deep learning. O ChatGPT é IA generativa; um filtro de spam é IA mas não é generativa.
O que é um token num LLM?
Um token é a unidade mínima com que o modelo trabalha: pode ser uma palavra curta, parte de uma palavra, ou um símbolo de pontuação. Em português, cada token corresponde tipicamente a 3 a 4 caracteres. O modelo gera texto um token de cada vez, e cada input (a pergunta, o histórico, os ficheiros) também é convertido em tokens antes de o modelo o processar.
Porque é que o ChatGPT (ou o Claude, ou o Gemini) dá respostas diferentes para a mesma pergunta?
Porque a geração é probabilística. Em cada passo, o modelo calcula probabilidades para o próximo token e escolhe um. Esse comportamento é controlado pela "temperatura": mais alta significa mais variação, mais baixa significa respostas mais repetitivas. A maioria das interfaces de chat usa temperatura acima de zero para as respostas soarem naturais; para resultados reproduzíveis, é preciso usar uma API e definir a temperatura a zero.
O que é a janela de contexto e porque é que é importante?
A janela de contexto é o número máximo de tokens que o modelo consegue processar de uma vez: prompt de sistema, histórico da conversa, ficheiros anexados e a resposta a gerar, tudo somado. Quando excede o limite, o modelo ou trunca o início, ou devolve erro, ou corta mensagens antigas. É o limite real de atenção do modelo em qualquer conversa.
O ChatGPT tem memória das minhas conversas anteriores?
Por omissão, não. Cada chamada a um LLM não tem estado prévio: o modelo só sabe o que está no contexto daquela conversa. Funcionalidades como a Memory do ChatGPT, os Projects do Claude ou os Gems do Gemini injetam notas guardadas pela interface na prompt de sistema a cada conversa. Continua a ser tudo contexto, só está escondido por baixo da interface.
Porque é que os modelos inventam factos (alucinações)?
Porque o modelo está sempre a escolher o próximo token estatisticamente mais provável, mesmo quando não tem informação fiável para a pergunta. Não tem um mecanismo interno que diga "não sei" por omissão. Mitigas alucinações pedindo fontes explicitamente, dando ao modelo acesso a ferramentas de pesquisa ou a documentos (retrieval), ou reduzindo a temperatura para texto factual.
O que são ferramentas e porque mudam o comportamento do modelo?
As ferramentas são funções externas (pesquisa web, execução de código, APIs de terceiros, servidores MCP) que o modelo pode chamar durante a geração. Sem ferramentas, o LLM é uma caixa fechada limitada ao que está nos seus pesos e no contexto. Com ferramentas, pode consultar informação em tempo real, executar ações e verificar. É a diferença entre um chatbot e um assistente operacional.
Preciso de saber programar para usar LLMs?
Não para os usares via ChatGPT, Claude ou Gemini, que são interfaces de chat. Precisas se quiseres automatizar chamadas ao modelo, integrar um LLM no teu produto ou sistema, controlar parâmetros como temperatura ou semente para resultados reproduzíveis, ou construir agentes com ferramentas. Para a maioria dos utilizadores, a interface de chat chega para quase todos os casos de trabalho do dia a dia.