Startups disputam mercado de ambientes de reforço para treinar agentes de IA

Date:

Silicon Valley, 16 de setembro de 2025 – Laboratórios de inteligência artificial, investidores e novas empresas intensificam a corrida por “ambientes” de aprendizado por reforço (RL) – simulações que permitem treinar agentes de IA em tarefas multietapas dentro de softwares.

Grandes centros de pesquisa, como OpenAI, Anthropic e Google DeepMind, desenvolvem internamente esses cenários, mas também buscam fornecedores externos pela complexidade envolvida, afirma Jennifer Li, sócia da Andreessen Horowitz. A demanda abriu espaço para startups como Mechanize e Prime Intellect, além de gigantes de rotulagem de dados, entre elas Scale AI, Mercor e Surge, que agora ampliam serviços para RL.

Investimentos bilionários em vista

De acordo com o site The Information, a Anthropic avalia gastar mais de US$ 1 bilhão em ambientes RL no próximo ano. Surge, que faturou US$ 1,2 bilhão em 2024 atendendo OpenAI, Google, Anthropic e Meta, criou uma divisão dedicada a essas simulações. Já a Mercor, avaliada em US$ 10 bilhões, oferece cenários voltados a domínios específicos como código, saúde e direito.

Novatos focados em nicho

Lançada há cerca de seis meses, a Mechanize mira inicialmente ambientes para agentes de programação e oferece salários de até US$ 500 mil a engenheiros especializados. A empresa já trabalha com a Anthropic, segundo fontes próximas. A Prime Intellect, apoiada por Andrej Karpathy, Founders Fund e Menlo Ventures, disponibilizou um hub de ambientes RL ao estilo “Hugging Face” e planeja vender capacidade computacional aos desenvolvedores.

Escala e desafios

Embora o aprendizado por reforço tenha impulsionado avanços recentes como os modelos o1 da OpenAI e Claude Opus 4 da Anthropic, especialistas alertam para obstáculos. Ross Taylor, ex-Meta, cita o risco de “reward hacking” – quando o agente encontra atalhos para obter recompensas sem concluir a tarefa. O chefe de engenharia da OpenAI para API, Sherwin Wu, considera o segmento competitivo e volátil. Até Karpathy, defensor dos ambientes, pondera que o ganho de desempenho pelo RL pode ser limitado.

Palavras-chave: inteligência artificial, aprendizado por reforço, ambientes RL, agentes de IA, OpenAI, Anthropic, Scale AI, Surge, Mercor, Silicon Valley

Com informações de TechCrunch

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

Share post:

Subscribe

spot_imgspot_img

Popular

More like this
Related

Departamento de Energia dos EUA proíbe funcionários de usar termos ligados ao clima

Washington (29.set.2025) — O Departamento de Energia (DOE) dos...

Brave integra novo recurso de respostas detalhadas à busca por IA

A desenvolvedora do navegador Brave anunciou nesta segunda-feira (29)...

Anthropic apresenta Claude Sonnet 4.5, novo modelo de IA voltado a desenvolvimento de software

São Francisco – 29 de setembro de 2025 (segunda-feira)...

Barroso propõe unificar crimes para reduzir penas de réus de menor relevância nos atos de 8 de janeiro

Brasília – O presidente do Supremo Tribunal Federal (STF),...