Ferramentas de codificação movidas a inteligência artificial, como GPT-5, Gemini 2.5 e a recém-lançada Sonnet 2.4, avançam em ritmo acelerado, enquanto outras aplicações — a exemplo da redação de e-mails — evoluem de forma mais lenta. A constatação reforça o que especialistas já chamam de “lacuna de reforço”, fenômeno que opõe tarefas facilmente avaliáveis por máquina àquelas cuja medição depende de critérios subjetivos.
O impulso dessa diferença está no aprendizado por reforço (RL, na sigla em inglês). Nos últimos seis meses, essa técnica se firmou como principal motor de aprimoramento dos modelos, pois permite submeter respostas a bilhões de testes pass-ou-falha sem a necessidade constante de intervenção humana. Quando há métricas objetivas — como compilar código ou solucionar um bug — o desenvolvimento acelera.
Desenvolvimento de software, por exemplo, é terreno fértil para RL. Já existiam, antes mesmo da IA, rotinas de teste unitário, integração e segurança que determinam automaticamente se um trecho de código funciona ou não. Segundo um diretor sênior de ferramentas de desenvolvimento do Google, esses testes são igualmente eficazes para validar código gerado por IA e, agora, servem de base para treinar modelos em grande escala.
Em contrapartida, atividades como escrever um bom e-mail ou dialogar num chatbot carecem de um critério quantitativo universal, dificultando o uso de RL. Ainda assim, especialistas apontam que nem toda tarefa se encaixa claramente nos extremos “fácil de testar” ou “difícil de testar”. Relatórios financeiros trimestrais ou cálculos atuariais, por exemplo, poderiam ganhar kits de verificação criados sob medida, caso haja investimento suficiente.
Tarefas consideradas complexas também surpreendem. A OpenAI mostrou avanços notáveis em vídeo com o modelo Sora 2, que mantém objetos no quadro, preserva rostos e respeita leis físicas. Os resultados sugerem múltiplos sistemas de RL atuando em paralelo para avaliar realismo, estabilidade e consistência quadro a quadro.

Imagem: Getty
Enquanto o RL permanecer no centro do desenvolvimento de produtos de IA, a lacuna de reforço tende a se ampliar. Processos que se mostrem mensuráveis têm maior probabilidade de serem automatizados por startups, alterando setores inteiros — da programação à saúde — e redefinindo carreiras nas próximas décadas.
Palavras-chave: inteligência artificial, aprendizado por reforço, GPT-5, Gemini 2.5, Sonnet 2.4, Sora 2, automação, testes de software, codificação, TechCrunch
Com informações de TechCrunch





