Cursor раскрывает метод обучения «самозакрепления»: использование старого Composer для создания среды для новой модели, Terminal-Bench вырос на 14 пунктов

robot
Генерация тезисов в процессе

По данным мониторинга Beating, Cursor опубликовал один из тренировочных трюков серии моделей Composer: использование предыдущего поколения модели для автоматической сборки рабочей среды для следующего поколения с помощью обучения с подкреплением (RL). При обучении Composer 2 Cursor использовал Composer 1.5 для выполнения этой задачи, называя это autoinstall.

Обучение с подкреплением требует рабочей кодовой среды. Если среда настроена неправильно, модель тратит токены на исправление ошибок, и ничего не учится; в крайних случаях среда полностью не запускается, и вся вычислительная мощность тратается впустую. autoinstall решает эту проблему в два шага: первый — агент читает документацию и конфигурацию кодовой базы, предлагая 10 команд для проверки и ожидаемый вывод; второй — другой агент берет 3 из этих команд и настраивает среду с нуля до тех пор, пока команда не выполнится. Второй шаг最多 5 раз повторяется, при полном провале среда отбрасывается.

Во время настройки среды агент активно дополняет недостающие зависимости: подделывает таблицы базы данных, создает конфигурацию MinIO вместо S3, запускает контейнер Docker в качестве sidecar-сервиса, а также генерирует заглушки изображений. В статье на примере блокчейн-проекта celo-org/celo-monorepo показан весь процесс: после неудачной первой попытки агент во второй создает моковых пользователей, обходя аутентификацию, и в итоге тест проходит.

Composer 2 набрал 61,7% в Terminal-Bench (бенчмарк, оценивающий способность модели создавать и развивать среду), что на 14 процентных пунктов выше, чем 47,9% у Composer 1.5. Cursor заявил, что в будущем планируется привлечь более старую версию Composer к участию в дополнительных этапах обучения, включая предварительную обработку данных, управление запуском и оптимизацию архитектуры.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить