Gate News новости, 10 апреля, сегодня глобальная авторитетная платформа для оценок ИИ LMArena (платформа для оценки моделей ИИ, в которой участвуют миллионы пользователей, проводя слепые тесты) обновила специализированный рейтинг Code Arena. GLM-5.1 заняла первое место среди глобальных моделей с открытым исходным кодом, а также находится на третьем месте в мире среди всех моделей.
GLM-5.1 не только унаследовала возможности с открытым исходным кодом на уровне SOTA из предыдущего поколения моделей для кодирования, но и добилась прорыва в задачах с длительным горизонтом (Long-Horizon Task), реализовав: сборку Linux-десктопа с нуля за 8 часов; 655 итераций, которые позволили преодолеть узкое место оптимизации в векторных базах данных; 1000 раундов оптимизации вызовов инструментов под реальные нагрузки машинного обучения.
Отдельно стоит отметить, что при одинаковых критериях оценки в рейтинге METR GLM-5.1 — единственная модель с открытым исходным кодом, достигшая уровня 8 часов непрерывной работы, и одна из немногих моделей в мире, обладающих этой способностью, кроме Claude Opus 4.6.