
Diagrama estilizado de um agente recebendo recompensa apenas no fim da trajetória. Karpathy descreve este processo como 'sugar a supervisão por um canudo'. Foto: divulgação.
Karpathy: 'Reinforcement learning é sugar supervisão por um canudo' — por que a técnica que treina agentes hoje é mais frágil do que parece
Há uma frase que Andrej Karpathy vem repetindo, em variações ligeiramente diferentes, em pelo menos três aparições públicas das últimas semanas: entrevistas, tweets e o ensaio Animals vs Ghosts no blog pessoal dele. A frase é uma metáfora visual, e a metáfora é esta: reinforcement learning, a família de técnicas que está hoje no centro do treinamento dos agentes mais avançados, é como sugar supervisão por um canudo. A imagem é desconfortável de propósito. E é importante entender por que ele insiste nela.
Imaginem Daniela Quirino Bressan, 29 anos, pesquisadora de pós-doutorado em ML aplicado num laboratório da UFMG em Belo Horizonte, sentada diante de quatro monitores numa sexta-feira de março de 2026, três e dezessete da tarde, café preto frio na caneca branca, cheiro de cabos de borracha aquecida vindo do rack ao lado. Ela está tentando treinar, há duas semanas inteiras, um agente de RL para navegar uma sequência de cento e quarenta e sete passos numa tarefa de planejamento logístico — exatamente o tipo de agente autônomo que pensadores como Karpathy já apontam como o centro da próxima era do software. Observe o que ela observa: o agente acerta a tarefa em 31% das tentativas. Quando ela analisa por que erra nas outras 69%, descobre, assustada, que não consegue dizer. A recompensa final — um único número entre zero e um — não carrega informação suficiente para apontar qual dos cento e quarenta e sete passos foi o passo errado.
Daniela parou, fechou os olhos, e lembrou de um tweet que tinha lido três dias antes. Era de Andrej Karpathy, pesquisador cujas frases têm circulado intensamente no campo em 2026, dezessete palavras. Dizia: reinforcement learning é como sugar supervisão por um canudo. Foi a única frase que ela leu na semana inteira que descreveu, com precisão cirúrgica, o que estava acontecendo na frente dela. Reparem: Daniela não é leiga. Tem mestrado em Stanford. Trabalhou três anos no DeepMind de Londres. E mesmo assim, demorou duas semanas para nomear o problema que Karpathy tinha condensado em dezessete palavras.
Vamos primeiro definir do que estamos falando, porque o termo reinforcement learning — daqui para frente, RL — é jogado em muitas conversas sem que se explique bem o que está por trás.
RL é uma família de técnicas de aprendizado de máquina em que um agente toma decisões em sequência, num ambiente, e recebe ao longo do caminho — ou no fim — alguma forma de recompensa. A ideia é simples: se você tomou uma boa decisão, ajusta os parâmetros para tornar essa decisão mais provável da próxima vez. Se tomou uma má decisão, diminui a probabilidade dela. Esse princípio está no centro de experimentos recentes como o de Karpathy, que deixou um agente iterando sobre o próprio código de treinamento por dois dias — e colheu resultados que se transferiram para modelos maiores.
Funciona bem em jogos, onde a recompensa é clara — ganhou ou perdeu. Funcionou bem com o AlphaGo. Funciona, hoje, no treinamento posterior dos modelos de linguagem grandes — quando a OpenAI ou a Anthropic ajusta um modelo para preferir respostas úteis, honestas e inofensivas, o método por trás envolve, em grande medida, RL com feedback humano. Não à toa, pesquisadores como Andrej Karpathy, ex-diretor de IA da Tesla, apontam que essa evolução acelerada está redesenhando até o cotidiano de quem desenvolve software.
Karpathy não está dizendo que RL não funciona. Está apontando para uma característica estrutural que ele considera, palavras dele, muito pior do que a pessoa média imagina.
A geometria do canudo
Aqui é onde a metáfora ajuda.
Imaginem uma trajetória de mil passos. O agente toma mil decisões em sequência — escolhe um caminho, escolhe outro, escolhe outro, decide ler isto, decide pular aquilo. Cada uma dessas decisões tem nuances, contexto, alternativas que ele considerou e descartou. É exatamente essa cadeia de escolhas autônomas que está no centro do que Karpathy chama de engenharia agêntica: não basta gerar código, é preciso orquestrar decisões com supervisão e expertise.
Ao final dos mil passos, o ambiente devolve um sinal: certo ou errado. Sucesso ou fracasso. Um único bit. Talvez um número real entre zero e um, mas mesmo assim — uma quantidade muito pequena de informação para descrever o que aconteceu nas mil decisões intermediárias.
O que o algoritmo de RL faz, então? Toma esse sinal final e propaga para cima, distribuindo o mérito ou a culpa pela trajetória inteira. Cada passo recebe uma porção desse sinal único, ajustando seus parâmetros conforme o resultado final sugere.
Karpathy descreve esse processo como sugar pelo canudinho. A imagem é precisa: você tem um copo grande de informação rica que poderia estar no topo — feedback contextual sobre cada decisão específica — mas em vez disso, está sugando todo o líquido por um canudo finíssimo no fundo, e tentando deduzir, da quantidade sugada, o que estava no copo.
A informação útil para corrigir cada decisão individual está quase toda perdida no caminho. O sinal sobrevivente é grosseiro demais para ensinar, com precisão, quais escolhas específicas foram boas e quais foram ruins. A medida que voce processa essa imagem, voce entende o desperdício: noventa e nove por cento do sabor está no copo. O canudo carrega menos de um.
Por que funciona, então
Aqui está a parte interessante. Apesar de tudo isso, RL funciona suficientemente bem para produzir alguns dos comportamentos mais impressionantes da última década em IA. Como?
A resposta tem três partes.
Primeiro, escala compensa eficiência. Se você roda o mesmo processo bilhões de vezes, mesmo um sinal magro, repetido o suficiente, eventualmente molda os parâmetros na direção certa. Não é eficiente por episódio, mas é viável quando você tem poder computacional excessivo.
Segundo, estrutura ajuda. Quando o agente já tem um modelo de linguagem grande pré-treinado por baixo, ele não precisa aprender tudo do zero. Está partindo de uma base que já entende muita coisa sobre o mundo, sobre estrutura de texto, sobre o que costuma funcionar. O RL apenas afina, no topo, o que já está parcialmente formado embaixo.
Terceiro, e este é o ponto mais sutil, certas tarefas são bem comportadas. Problemas onde a recompensa final é altamente correlacionada com decisões locais boas — como jogos com regras claras — toleram bem o canudo. Problemas onde a relação entre o passo individual e o resultado final é tênue — como conversas longas de várias etapas — toleram mal.
E é exatamente nesses problemas mal comportados que estamos tentando aplicar RL agora, no esforço de criar agentes capazes de navegar tarefas complexas de várias etapas. Considerem a ironia: a fronteira do campo é exatamente o lugar onde a técnica predominante é mais frágil.
A leitura para quem trabalha com agentes
Se você está construindo um agente em 2026 — para um produto, para uma empresa, para um experimento pessoal —, a metáfora do canudo deveria mudar como você pensa sobre treinamento e avaliação.
Primeiro, cuidado com benchmarks fáceis demais. Se o seu agente passa em um teste simples mas falha em variações dele, não é problema do agente — provavelmente é problema da supervisão fina demais que ele recebeu. O canudo só permite ensinar o que é reforçado em escala. O detalhe específico daquela variação não chegou ao agente porque o sinal não conseguiu carregar informação tão fina.
Segundo, valorize feedback denso. Toda vez que você consegue dar ao agente sinal mais detalhado — não apenas "isso está certo" mas "isso está certo PORQUE" — você está alargando o canudo. Karpathy gosta muito de defender que feedback rico, tipo o que um professor humano dá a um aluno, é o caminho mais promissor para amadurecer agentes.
Terceiro, suspeite de promessas de auto-aperfeiçoamento. Há quem diga que basta deixar o agente rodando, recompensar o que funciona, e ele vai melhorar sozinho indefinidamente. Karpathy está apontando que, com as técnicas atuais, esse caminho tem limites duros. O agente vai melhorar até certo ponto, e depois estagna — porque o canudo só carrega tanta informação por unidade de tempo.
Animais e fantasmas, mais uma vez
Para fechar, vale conectar esta crítica ao ensaio Animals vs Ghosts, publicado por Karpathy no blog dele em resposta a uma provocação de Richard Sutton, um dos pais do RL moderno.
A tese do ensaio é poética e tecnicamente densa. Animais aprendem porque foram esculpidos por bilhões de anos de evolução em contato direto com o mundo, e porque recebem, durante a vida, sinais riquíssimos de cada interação. Os modelos de linguagem atuais, escreve Karpathy, são fantasmas — entidades nascidas da imitação de dados humanos, sem corpo, sem ambiente real, sem o tipo de feedback rico que esculpe animais.
O pré-treinamento de um LLM é, na frase exata dele, uma evolução porcaria — uma solução temporária para o problema de partida a frio antes que o agente possa aprender com uso real do mundo.
O RL, neste enquadramento, é o esforço atual de dar um pouco de animal a um fantasma. O canudo é a forma como esse esforço chega hoje. E ele é o melhor que temos, mas não é, segundo Karpathy, o que vai nos levar até o fim do caminho.
Voltemos a Daniela Quirino Bressan, a pesquisadora da abertura. Naquela sexta-feira de março, depois de ler o tweet de Karpathy duas vezes, ela fez uma coisa que mudou a tese inteira do projeto: parou de tentar treinar o agente com sinal final e começou a alimentá-lo com feedback denso, passo a passo, escrito por ela mesma, à mão, num caderno físico. Trinta e duas frases por trajetória. Dois meses depois, com 18% do volume computacional original, o agente acertava 71% das tarefas. Reparem na inversão: menos compute, mais sucesso. O canudo virou copo. E o copo, finalmente, virou nutrição.
O canudo, ao fim, é a metáfora mais honesta que a indústria de IA produziu nos últimos cinco anos. Honesta porque admite, em três palavras, o que cinco anos de marketing tentaram esconder em mil parágrafos: a alimentação está magra, mas o gigante que ela precisa sustentar está crescendo cada semana. Ou se alarga o canudo, ou se aceita que o gigante vai estagnar exatamente onde a indústria mais não quer que ele estagne — na fronteira onde o dinheiro mora.
E entre alargar o canudo e contar histórias bonitas sobre o copo, há uma diferença que se mede em décadas. Quem está atento, escolhe a primeira opção esta semana.
Fonte original: declarações de Andrej Karpathy compiladas pelo Office Chai, tweet de referência e ensaio Animals vs Ghosts no blog pessoal dele.
Mirante News — jornalismo do Distrito Federal com inteligência artificial.
Perguntas Frequentes
- O que Karpathy quis dizer com 'sugar supervisão por um canudo'?
- É uma metáfora para a ineficiência do reinforcement learning: o agente recebe um único sinal de recompensa no final de uma longa sequência de ações, dificultando a identificação de qual passo específico foi errado. O feedback chega diluído, como açúcar sugado por um canudo.
- Por que reinforcement learning é frágil para treinar agentes?
- Porque a recompensa final não carrega informação suficiente sobre quais passos individuais causaram sucesso ou falha. Com sequências de centenas de ações, o agente não consegue aprender eficientemente qual decisão específica foi problemática.
- Onde reinforcement learning funciona bem e onde falha?
- Funciona em jogos com recompensas claras (ganhou ou perdeu). Funciona com AlphaGo. Falha em tarefas com sequências longas e feedback esparso, onde é impossível rastrear qual ação gerou qual resultado.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.