Недавно я провел эксперимент с многомодельным состязанием и обнаружил довольно интересную вещь.


По одной и той же задаче я попросил Claude и Codex независимо разработать решение.
Codex пропустил один момент: моя стратегия распределена по более чем 20 независимым процессам, и его решение по умолчанию предполагает, что «все компоненты работают в одном месте», что делает его бесполезным. Claude сразу заметил эту проблему.
Обратная сторона: Claude упорно настаивал на создании новых отдельных модулей, хотя у меня уже есть полностью готовая рамочная структура, к которой достаточно добавить один параметр. Codex это заметил и исправил.
Самое интересное — следующий шаг: я попросил оба модели взаимно проверить финальные решения друг друга, и оба автоматически зафиксировали «уже написанную рамочную структуру другого», в результате оба пропустили один крайний случай — и только после этого я вручную запустил данные в продакшн и обнаружил проблему.
Теперь моя привычка такова: на каждом этапе состязания я задаю четкие критерии успеха и запрещаю моделям просматривать черновики друг друга. В итоге получаю два независимых черновика с непересекающимися зонами пробелов, и только их объединение дает более полное решение.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить