12 лютого,智谱 випустила GLM-5, що вразила всіх. Через 10 днів з’явився технічний звіт, який дає змогу заглянути у внутрішні гени моделі GLM-5.
Цікаво не лише те, що знову підняли рейтинг, а й те, що вся ідея змінилася: більше не порівнюють за розміром параметрів, а починають оцінювати системну інженерію.
Три ключові досягнення GLM-5 досить реальні: 1. модель справді здатна виконувати складні завдання, а не просто писати кілька рядків коду; 2. підвищена ефективність тренування — надзвичайно великі моделі вже не є чисто грошей’їдкою; 3. повна адаптація з низького рівня до рамок дедуктивного мислення для вітчизняних чипів — це найважливіше.
Якщо раніше говорили, що «Китай наздоганяє», то тепер вже починають створювати власну технологічну систему.
Від “надання коду” до “створення системи”
У звіті запропоновано концептуальну зміну: від Vibe Coding до Agentic Engineering. Перший — це коли ви говорите одне слово, і я даю фрагмент коду; другий — це коли ви ставите ціль, я сам планую, розбиваю на частини, пишу код, налаштовую інструменти, тестую і ітерую, доки не зберу цілісну систему.
Головний фокус GLM-5 вже не на окремих задачах, а на:
Контекст до 200 тисяч токенів (кілька сотень сторінок документів)
Міжфайлові програмні задачі
Постійне планування та корекція у довгострокових завданнях
Мультираундова взаємодія для збереження цілісності мислення
Наприклад, Vending-Bench 2 вимагає «моделювати автомат з продажу протягом року», і в кінці — перевірити баланс рахунку. GLM-5 у відкритих моделях перший, близький до Claude Opus 4.5. Це тестує здатність довгострокових рішень, а не відповіді на питання.
Модель вже має “інженерний рівень інтелекту”.
Рідкісне уваги: більше не бездумно витрачаємо обчислювальні ресурси
GLM-5 має 744 мільярди параметрів (активовані 40 млрд), тренувався на 28,5 трильйонах токенів. За традиційною архітектурою, обчислювальні витрати зростають експоненційно.
Ключова інновація — DSA (DeepSeek Sparse Attention). Традиційний механізм уваги «дивиться на все», зростання обчислень квадратичне; DSA динамічно визначає, які токени справді важливі, і обчислює лише ключові.
При контексті до 200 тисяч токенів DSA зменшує обсяг уваги в 1.5–2 рази.
І — без втрат.
Інші ефективні методи уваги зазвичай жертвують точністю, але DSA, продовжуючи попереднє тренування, забезпечує плавний перехід без деградації продуктивності.
Результат:
та ж сама обчислювальна потужність → довший контекст
та ж сама вартість → вища здатність до дедукції
та ж сама апаратура → більша модель
Для Китаю важливіше інновації у ефективності, ніж просто нарощування обчислювальної потужності.
Реконструкція архітектури навчання з підкріпленням
Система RL для GLM-5 зазнала кардинальних змін.
Генерація та тренування розділені. Модель генерує траєкторії, тренування відбувається асинхронно у окремій системі. Раніше потрібно було чекати завершення найповільнішої задачі, тепер — хто швидше закінчив, той і тренується першим, що значно підвищує пропускну здатність. Це критично для довготривалих агентських задач.
Асинхронний алгоритм RL для агентів вирішує проблему тривалих задач у реальному програмному забезпеченні. Впроваджено:
Token-in-Token-out (щоб уникнути помилок повторного токенізування)
Двунаправлене важливісне зважування
Оптимізація маршрутизації KV-кешу з урахуванням DP
Модель здатна стабільно навчатися у складних середовищах, не руйнуючись через стратегічні зсуви.
Говорячи просто, це рішення для «забезпечення постійного самовдосконалення великої моделі у реальних задачах».
Найважливіший крок: адаптація до вітчизняних обчислювальних платформ
У звіті особливо підкреслюється цей аспект.
GLM-5 нативно адаптована до екосистеми вітчизняних GPU, вже сумісна з Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlun, Tiandao, Suiyuan.
Це не просто «може працювати», а:
оптимізація управління KV-кешем
адаптація комунікаційних механізмів
відповідність гібридному тренуванню з плаваючою точністю
узгодження з INT4 QAT
реконструкція стратегій розподіленої паралельної обробки
Багато труднощів у екосистемі вітчизняних чипів — не у обчислювальній потужності, а у програмному стеку.
Значення GLM-5 у тому, що він не орієнтований на один закордонний апаратний архітектурний стандарт, а створений для системної адаптації під різні вітчизняні платформи.
Це якісний стрибок — китайські великі моделі починають оптимізуватися під місцеве апаратне забезпечення, а не просто переносити чужі рішення.
Завдяки цим високоефективним синергіям між софтом і залізом, продуктивність GLM-5 на одному вітчизняному вузлі вже може конкурувати з кластером із двох міжнародних GPU; крім того, у сценаріях обробки довгих послідовностей його розгортання зменшилось у 2 рази, а вартість — на 50%.
Закритий цикл софтвару і заліза формує цілісну систему
Розглядаючи технічний шлях GLM-5 по частинах, бачимо повний замкнутий цикл:
Інновації у архітектурі моделі (DSA) → оптимізація ефективності тренування (асинхронне RL) → компресія пам’яті та комунікацій (ZeRO, вивантаження активацій) → узгодження з низькою точністю (INT4 QAT) → глибока адаптація до вітчизняних чипів
Це цілісний ланцюг створення вітчизняного AI.
Раніше переваги Китаю у AI були на рівні застосунків, тепер ж починається повний цикл інновацій у архітектурі, алгоритмах, системах тренування, адаптації під чипи і дедуктивних рамках.
Цей технічний звіт — не просто про бали у бенчмарках, а про перший у Китаї системний рівень конкурентоспроможності.
Від показухи до зрілості
Звіт GLM-5 не зосереджений на тому, щоб показати, наскільки ми кращі за інших, а детально описує процес тренування, вибір алгоритмів, інженерні компроміси, абляційні дослідження. Це самий прояв зрілості.
Коли модель починає говорити про використання GPU, довгі затримки, повторне використання KV-кешу, узгодження квантових ядрових операцій, контроль катастрофічного забування — вона вже не демонструє здатності, а створює промислову систему.
Для Китаю GLM-5 — це скоріше декларація: ми не лише можемо створювати великі моделі, а й розробляти власне апаратне забезпечення і інтегрувати їх у єдину систему.
Ось справжній прорив.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
智谱 опублікував технічні деталі GLM-5: інженерний рівень штучного інтелекту, адаптований до вітчизняних обчислювальних потужностей
12 лютого,智谱 випустила GLM-5, що вразила всіх. Через 10 днів з’явився технічний звіт, який дає змогу заглянути у внутрішні гени моделі GLM-5.
Цікаво не лише те, що знову підняли рейтинг, а й те, що вся ідея змінилася: більше не порівнюють за розміром параметрів, а починають оцінювати системну інженерію.
Три ключові досягнення GLM-5 досить реальні: 1. модель справді здатна виконувати складні завдання, а не просто писати кілька рядків коду; 2. підвищена ефективність тренування — надзвичайно великі моделі вже не є чисто грошей’їдкою; 3. повна адаптація з низького рівня до рамок дедуктивного мислення для вітчизняних чипів — це найважливіше.
Якщо раніше говорили, що «Китай наздоганяє», то тепер вже починають створювати власну технологічну систему.
Від “надання коду” до “створення системи”
У звіті запропоновано концептуальну зміну: від Vibe Coding до Agentic Engineering. Перший — це коли ви говорите одне слово, і я даю фрагмент коду; другий — це коли ви ставите ціль, я сам планую, розбиваю на частини, пишу код, налаштовую інструменти, тестую і ітерую, доки не зберу цілісну систему.
Головний фокус GLM-5 вже не на окремих задачах, а на:
Наприклад, Vending-Bench 2 вимагає «моделювати автомат з продажу протягом року», і в кінці — перевірити баланс рахунку. GLM-5 у відкритих моделях перший, близький до Claude Opus 4.5. Це тестує здатність довгострокових рішень, а не відповіді на питання.
Модель вже має “інженерний рівень інтелекту”.
Рідкісне уваги: більше не бездумно витрачаємо обчислювальні ресурси
GLM-5 має 744 мільярди параметрів (активовані 40 млрд), тренувався на 28,5 трильйонах токенів. За традиційною архітектурою, обчислювальні витрати зростають експоненційно.
Ключова інновація — DSA (DeepSeek Sparse Attention). Традиційний механізм уваги «дивиться на все», зростання обчислень квадратичне; DSA динамічно визначає, які токени справді важливі, і обчислює лише ключові.
При контексті до 200 тисяч токенів DSA зменшує обсяг уваги в 1.5–2 рази.
І — без втрат.
Інші ефективні методи уваги зазвичай жертвують точністю, але DSA, продовжуючи попереднє тренування, забезпечує плавний перехід без деградації продуктивності.
Результат:
Для Китаю важливіше інновації у ефективності, ніж просто нарощування обчислювальної потужності.
Реконструкція архітектури навчання з підкріпленням
Система RL для GLM-5 зазнала кардинальних змін.
Генерація та тренування розділені. Модель генерує траєкторії, тренування відбувається асинхронно у окремій системі. Раніше потрібно було чекати завершення найповільнішої задачі, тепер — хто швидше закінчив, той і тренується першим, що значно підвищує пропускну здатність. Це критично для довготривалих агентських задач.
Асинхронний алгоритм RL для агентів вирішує проблему тривалих задач у реальному програмному забезпеченні. Впроваджено:
Модель здатна стабільно навчатися у складних середовищах, не руйнуючись через стратегічні зсуви.
Говорячи просто, це рішення для «забезпечення постійного самовдосконалення великої моделі у реальних задачах».
Найважливіший крок: адаптація до вітчизняних обчислювальних платформ
У звіті особливо підкреслюється цей аспект.
GLM-5 нативно адаптована до екосистеми вітчизняних GPU, вже сумісна з Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlun, Tiandao, Suiyuan.
Це не просто «може працювати», а:
Багато труднощів у екосистемі вітчизняних чипів — не у обчислювальній потужності, а у програмному стеку.
Значення GLM-5 у тому, що він не орієнтований на один закордонний апаратний архітектурний стандарт, а створений для системної адаптації під різні вітчизняні платформи.
Це якісний стрибок — китайські великі моделі починають оптимізуватися під місцеве апаратне забезпечення, а не просто переносити чужі рішення.
Завдяки цим високоефективним синергіям між софтом і залізом, продуктивність GLM-5 на одному вітчизняному вузлі вже може конкурувати з кластером із двох міжнародних GPU; крім того, у сценаріях обробки довгих послідовностей його розгортання зменшилось у 2 рази, а вартість — на 50%.
Закритий цикл софтвару і заліза формує цілісну систему
Розглядаючи технічний шлях GLM-5 по частинах, бачимо повний замкнутий цикл:
Інновації у архітектурі моделі (DSA) → оптимізація ефективності тренування (асинхронне RL) → компресія пам’яті та комунікацій (ZeRO, вивантаження активацій) → узгодження з низькою точністю (INT4 QAT) → глибока адаптація до вітчизняних чипів
Це цілісний ланцюг створення вітчизняного AI.
Раніше переваги Китаю у AI були на рівні застосунків, тепер ж починається повний цикл інновацій у архітектурі, алгоритмах, системах тренування, адаптації під чипи і дедуктивних рамках.
Цей технічний звіт — не просто про бали у бенчмарках, а про перший у Китаї системний рівень конкурентоспроможності.
Від показухи до зрілості
Звіт GLM-5 не зосереджений на тому, щоб показати, наскільки ми кращі за інших, а детально описує процес тренування, вибір алгоритмів, інженерні компроміси, абляційні дослідження. Це самий прояв зрілості.
Коли модель починає говорити про використання GPU, довгі затримки, повторне використання KV-кешу, узгодження квантових ядрових операцій, контроль катастрофічного забування — вона вже не демонструє здатності, а створює промислову систему.
Для Китаю GLM-5 — це скоріше декларація: ми не лише можемо створювати великі моделі, а й розробляти власне апаратне забезпечення і інтегрувати їх у єдину систему.
Ось справжній прорив.