Cursor revela método de treinamento "auto-inicialização": usar um Composer antigo para montar o ambiente para o novo modelo, Terminal-Bench aumenta 14 pontos

robot
Geração do resumo em andamento

De acordo com o monitoramento Beating, a Cursor revelou uma técnica de treinamento para a série de modelos Composer: usar o modelo da geração anterior para montar automaticamente um ambiente de execução para o reforço de aprendizado (RL) da próxima geração.
Ao treinar o Composer 2, a Cursor usou o Composer 1.5 para realizar essa tarefa, chamando-a de autoinstall.
O treinamento de RL requer um ambiente de código executável.
Se o ambiente não estiver bem configurado, o modelo desperdiça tokens tentando corrigir bugs, sem aprender nada;
em casos extremos, o ambiente fica completamente inoperante, e toda a potência de cálculo da rodada de treinamento é desperdiçada.
O autoinstall resolve esse problema em duas etapas:
Primeira etapa, um agente lê a documentação e configurações do repositório de código, e propõe 10 comandos de validação e suas saídas esperadas;
Segunda etapa, outro agente pega 3 desses comandos, configura o ambiente do zero até que os comandos sejam executados com sucesso.
A segunda etapa tenta no máximo 5 vezes; se todas falharem, o ambiente é descartado.
Durante a configuração do ambiente, o agente ativa a complementação de dependências ausentes: falsifica tabelas de banco de dados, cria configurações MinIO para substituir o S3, inicia containers Docker como serviços sidecar, e até gera imagens de placeholder.
Um artigo usa o projeto de blockchain celo-org/celo-monorepo como exemplo para demonstrar todo o fluxo, onde após a primeira tentativa de configuração do ambiente falhar, o agente cria usuários mock na segunda rodada para contornar a autenticação, e finalmente executa os testes com sucesso.
O Composer 2 obteve uma pontuação de 61,7% no Terminal-Bench (uma métrica de avaliação da capacidade de montar ambientes de desenvolvimento de modelos), superando quase 14 pontos percentuais em relação aos 47,9% do Composer 1.5.
A Cursor afirma que, no futuro, planeja envolver versões antigas do Composer em mais etapas de treinamento, incluindo pré-processamento de dados, gerenciamento de execução e ajuste de arquitetura.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar