Cursor revela método de treinamento "auto-inicialização": usar um Composer antigo para montar o ambiente do novo modelo, Terminal-Bench aumenta 14 pontos

robot
Geração do resumo em andamento

De acordo com o monitoramento Beating, o Cursor revelou uma técnica de treinamento para a série de modelos Composer: usar o modelo da geração anterior para montar automaticamente um ambiente de execução para o próximo nível de aprendizado por reforço (RL). Ao treinar o Composer 2, o Cursor utilizou o Composer 1.5 para realizar essa tarefa, chamando-a de autoinstall.

O treinamento por RL requer um ambiente de código executável. Se o ambiente não estiver bem configurado, o modelo desperdiça tokens tentando corrigir bugs, sem aprender nada; em casos extremos, o ambiente pode ficar totalmente inoperante, desperdiçando toda a capacidade computacional da rodada de treinamento. O autoinstall resolve esse problema em duas etapas: a primeira, um agente lê a documentação e configurações do repositório de código, propondo 10 comandos de validação e suas saídas esperadas; a segunda, outro agente pega 3 desses comandos, configura o ambiente do zero até que os comandos sejam executados com sucesso. A segunda etapa tenta no máximo 5 vezes; se todas falharem, o ambiente é descartado.

Durante a configuração do ambiente, o agente ativa a complementação de dependências ausentes: falsifica tabelas de banco de dados, cria configurações do MinIO para substituir o S3, inicia containers Docker como serviços sidecar, e até gera imagens de placeholder. Um artigo usa o projeto de blockchain celo-org/celo-monorepo como exemplo para demonstrar todo o processo, onde após a primeira tentativa de configuração falhar, o agente cria um usuário mock na segunda rodada para contornar a autenticação, e assim consegue passar no teste.

O Composer 2 obteve uma pontuação de 61,7% no Terminal-Bench (um benchmark que avalia a capacidade de montar ambientes de desenvolvimento de modelos), superando em quase 14 pontos percentuais os 47,9% do Composer 1.5. O Cursor afirma que, no futuro, planeja envolver versões antigas do Composer em mais etapas de treinamento, incluindo pré-processamento de dados, gerenciamento de execução e ajuste de arquitetura.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar