Silicon Valley, 16 de setembro de 2025 – Laboratórios de inteligência artificial, investidores e novas empresas intensificam a corrida por “ambientes” de aprendizado por reforço (RL) – simulações que permitem treinar agentes de IA em tarefas multietapas dentro de softwares.
Grandes centros de pesquisa, como OpenAI, Anthropic e Google DeepMind, desenvolvem internamente esses cenários, mas também buscam fornecedores externos pela complexidade envolvida, afirma Jennifer Li, sócia da Andreessen Horowitz. A demanda abriu espaço para startups como Mechanize e Prime Intellect, além de gigantes de rotulagem de dados, entre elas Scale AI, Mercor e Surge, que agora ampliam serviços para RL.
Investimentos bilionários em vista
De acordo com o site The Information, a Anthropic avalia gastar mais de US$ 1 bilhão em ambientes RL no próximo ano. Surge, que faturou US$ 1,2 bilhão em 2024 atendendo OpenAI, Google, Anthropic e Meta, criou uma divisão dedicada a essas simulações. Já a Mercor, avaliada em US$ 10 bilhões, oferece cenários voltados a domínios específicos como código, saúde e direito.
Novatos focados em nicho
Lançada há cerca de seis meses, a Mechanize mira inicialmente ambientes para agentes de programação e oferece salários de até US$ 500 mil a engenheiros especializados. A empresa já trabalha com a Anthropic, segundo fontes próximas. A Prime Intellect, apoiada por Andrej Karpathy, Founders Fund e Menlo Ventures, disponibilizou um hub de ambientes RL ao estilo “Hugging Face” e planeja vender capacidade computacional aos desenvolvedores.
Escala e desafios
Embora o aprendizado por reforço tenha impulsionado avanços recentes como os modelos o1 da OpenAI e Claude Opus 4 da Anthropic, especialistas alertam para obstáculos. Ross Taylor, ex-Meta, cita o risco de “reward hacking” – quando o agente encontra atalhos para obter recompensas sem concluir a tarefa. O chefe de engenharia da OpenAI para API, Sherwin Wu, considera o segmento competitivo e volátil. Até Karpathy, defensor dos ambientes, pondera que o ganho de desempenho pelo RL pode ser limitado.
Palavras-chave: inteligência artificial, aprendizado por reforço, ambientes RL, agentes de IA, OpenAI, Anthropic, Scale AI, Surge, Mercor, Silicon Valley
Com informações de TechCrunch