Se você já usou o ChatGPT, Claude ou Gemini, você já interagiu com um Large Language Model — um LLM. Mas o que exatamente está acontecendo por baixo do capô?

A ideia central: prever a próxima palavra

No fundo, um LLM faz uma coisa aparentemente simples: dado um texto, ele prevê qual é a palavra mais provável a seguir. Mas quando você faz isso bilhões de vezes com trilhões de exemplos, algo surpreendente emerge.

A arquitetura Transformer

Em 2017, pesquisadores do Google publicaram o paper "Attention is All You Need" — e mudaram tudo. O mecanismo de atenção permite que o modelo entenda relações entre palavras distantes no texto, não apenas as vizinhas.

Treinamento em três etapas

Pré-treinamento: O modelo lê a internet inteira (basicamente) e aprende padrões da linguagem
Fine-tuning supervisionado: Humanos criam exemplos de boas respostas
RLHF: O modelo aprende com feedback humano sobre o que é útil, seguro e preciso

FAQ

LLM e IA generativa são a mesma coisa? Não exatamente. LLMs são um tipo de IA generativa, mas a categoria inclui também modelos de imagem (Stable Diffusion), áudio (Suno) e vídeo (Sora).

LLMs realmente "entendem" o que dizem? Essa é a pergunta de um bilhão de dólares — e a resposta honesta é: não sabemos ainda.