智谱 опублікував технічні деталі GLM-5: інженерний рівень штучного інтелекту, адаптований до вітчизняних обчислювальних потужностей

robot
Генерація анотацій у процесі

12 лютого,智谱 випустила GLM-5, що вразила всіх. Через 10 днів з’явився технічний звіт, який дає змогу заглянути у внутрішні гени моделі GLM-5.

Цікаво не лише те, що знову підняли рейтинг, а й те, що вся ідея змінилася: більше не порівнюють за розміром параметрів, а починають оцінювати системну інженерію.

Три ключові досягнення GLM-5 досить реальні: 1. модель справді здатна виконувати складні завдання, а не просто писати кілька рядків коду; 2. підвищена ефективність тренування — надзвичайно великі моделі вже не є чисто грошей’їдкою; 3. повна адаптація з низького рівня до рамок дедуктивного мислення для вітчизняних чипів — це найважливіше.

Якщо раніше говорили, що «Китай наздоганяє», то тепер вже починають створювати власну технологічну систему.

Від “надання коду” до “створення системи”

У звіті запропоновано концептуальну зміну: від Vibe Coding до Agentic Engineering. Перший — це коли ви говорите одне слово, і я даю фрагмент коду; другий — це коли ви ставите ціль, я сам планую, розбиваю на частини, пишу код, налаштовую інструменти, тестую і ітерую, доки не зберу цілісну систему.

Головний фокус GLM-5 вже не на окремих задачах, а на:

Контекст до 200 тисяч токенів (кілька сотень сторінок документів)

Міжфайлові програмні задачі

Постійне планування та корекція у довгострокових завданнях

Мультираундова взаємодія для збереження цілісності мислення

Наприклад, Vending-Bench 2 вимагає «моделювати автомат з продажу протягом року», і в кінці — перевірити баланс рахунку. GLM-5 у відкритих моделях перший, близький до Claude Opus 4.5. Це тестує здатність довгострокових рішень, а не відповіді на питання.

Модель вже має “інженерний рівень інтелекту”.

Рідкісне уваги: більше не бездумно витрачаємо обчислювальні ресурси

GLM-5 має 744 мільярди параметрів (активовані 40 млрд), тренувався на 28,5 трильйонах токенів. За традиційною архітектурою, обчислювальні витрати зростають експоненційно.

Ключова інновація — DSA (DeepSeek Sparse Attention). Традиційний механізм уваги «дивиться на все», зростання обчислень квадратичне; DSA динамічно визначає, які токени справді важливі, і обчислює лише ключові.

При контексті до 200 тисяч токенів DSA зменшує обсяг уваги в 1.5–2 рази.

І — без втрат.

Інші ефективні методи уваги зазвичай жертвують точністю, але DSA, продовжуючи попереднє тренування, забезпечує плавний перехід без деградації продуктивності.

Результат:

  • та ж сама обчислювальна потужність → довший контекст
  • та ж сама вартість → вища здатність до дедукції
  • та ж сама апаратура → більша модель

Для Китаю важливіше інновації у ефективності, ніж просто нарощування обчислювальної потужності.

Реконструкція архітектури навчання з підкріпленням

Система RL для GLM-5 зазнала кардинальних змін.

Генерація та тренування розділені. Модель генерує траєкторії, тренування відбувається асинхронно у окремій системі. Раніше потрібно було чекати завершення найповільнішої задачі, тепер — хто швидше закінчив, той і тренується першим, що значно підвищує пропускну здатність. Це критично для довготривалих агентських задач.

Асинхронний алгоритм RL для агентів вирішує проблему тривалих задач у реальному програмному забезпеченні. Впроваджено:

  • Token-in-Token-out (щоб уникнути помилок повторного токенізування)
  • Двунаправлене важливісне зважування
  • Оптимізація маршрутизації KV-кешу з урахуванням DP

Модель здатна стабільно навчатися у складних середовищах, не руйнуючись через стратегічні зсуви.

Говорячи просто, це рішення для «забезпечення постійного самовдосконалення великої моделі у реальних задачах».

Найважливіший крок: адаптація до вітчизняних обчислювальних платформ

У звіті особливо підкреслюється цей аспект.

GLM-5 нативно адаптована до екосистеми вітчизняних GPU, вже сумісна з Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlun, Tiandao, Suiyuan.

Це не просто «може працювати», а:

  • оптимізація управління KV-кешем
  • адаптація комунікаційних механізмів
  • відповідність гібридному тренуванню з плаваючою точністю
  • узгодження з INT4 QAT
  • реконструкція стратегій розподіленої паралельної обробки

Багато труднощів у екосистемі вітчизняних чипів — не у обчислювальній потужності, а у програмному стеку.

Значення GLM-5 у тому, що він не орієнтований на один закордонний апаратний архітектурний стандарт, а створений для системної адаптації під різні вітчизняні платформи.

Це якісний стрибок — китайські великі моделі починають оптимізуватися під місцеве апаратне забезпечення, а не просто переносити чужі рішення.

Завдяки цим високоефективним синергіям між софтом і залізом, продуктивність GLM-5 на одному вітчизняному вузлі вже може конкурувати з кластером із двох міжнародних GPU; крім того, у сценаріях обробки довгих послідовностей його розгортання зменшилось у 2 рази, а вартість — на 50%.

Закритий цикл софтвару і заліза формує цілісну систему

Розглядаючи технічний шлях GLM-5 по частинах, бачимо повний замкнутий цикл:

Інновації у архітектурі моделі (DSA) → оптимізація ефективності тренування (асинхронне RL) → компресія пам’яті та комунікацій (ZeRO, вивантаження активацій) → узгодження з низькою точністю (INT4 QAT) → глибока адаптація до вітчизняних чипів

Це цілісний ланцюг створення вітчизняного AI.

Раніше переваги Китаю у AI були на рівні застосунків, тепер ж починається повний цикл інновацій у архітектурі, алгоритмах, системах тренування, адаптації під чипи і дедуктивних рамках.

Цей технічний звіт — не просто про бали у бенчмарках, а про перший у Китаї системний рівень конкурентоспроможності.

Від показухи до зрілості

Звіт GLM-5 не зосереджений на тому, щоб показати, наскільки ми кращі за інших, а детально описує процес тренування, вибір алгоритмів, інженерні компроміси, абляційні дослідження. Це самий прояв зрілості.

Коли модель починає говорити про використання GPU, довгі затримки, повторне використання KV-кешу, узгодження квантових ядрових операцій, контроль катастрофічного забування — вона вже не демонструє здатності, а створює промислову систему.

Для Китаю GLM-5 — це скоріше декларація: ми не лише можемо створювати великі моделі, а й розробляти власне апаратне забезпечення і інтегрувати їх у єдину систему.

Ось справжній прорив.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити