За даними моніторингу 1M AI News, колишній технічний керівник передової системи Ali通义千问 Лінь Цзюньян опублікував довгу статтю на платформі X, в якій систематично виклав своє бачення щодо переходу індустрії штучного інтелекту від «міркувального мислення» (reasoning thinking) до «агентського мислення» (agentic thinking). Це його перша публічна стаття з технічними поглядами після відходу з команди Qianwen на початку березня.
Лінь Цзюньян вважає, що основною темою першої половини 2025 року є міркувальне мислення — як змусити модель витрачати більше обчислювальних ресурсів на етапі міркування, як тренувати її за допомогою більш сильних сигналів винагороди, а також як контролювати глибину міркування. Але наступним кроком стане агентське мислення: модель більше не просто «думає довше», а «мислить для дії», постійно коригуючи плани у взаємодії з навколишнім середовищем.
У статті він відкрито згадав про технічний вибір команди Qianwen. Qwen3 намагався поєднати у одній моделі режим мислення та режим команд, підтримуючи налаштовуваний бюджет міркування, але на практиці виявилося, що розподіл даних і цілі поведінки цих двох режимів значно різняться: режим команд орієнтований на простоту, низьку затримку та відповідність форматам, тоді як режим мислення прагне вкладати більше токенів у складні задачі та підтримувати проміжну структуру міркування. Якщо планування даних не було достатньо ретельним, результати зазвичай виходили посередніми обох типів. Тому серія Qwen 2507 у підсумку випустила окремі версії Instruct і Thinking (з обсягами 30B і 235B відповідно), щоб кожна могла оптимізуватися окремо. Anthropic ж обрала протилежний шлях: з початку Claude 3.7 Sonnet стверджував, що міркування має бути інтегрованою здатністю, а не окремою моделлю, і користувачі можуть самостійно налаштовувати бюджет міркування.
Лінь Цзюньян висловлює думку, що інфраструктура для навчання агентського підсиленого навчання (reinforcement learning, RL) значно складніша за традиційне міркувальне RL. Випробувальні програми (rollout) у міркувальному RL зазвичай є самодостатніми траєкторіями, які можна перевіряти статичними валідаторами; у той час як агентське RL вимагає інтеграції моделі з повним набором інструментів (браузер, термінал, ізольоване середовище, API, системи пам’яті), і тренування з міркуванням має бути роздільним від процесу виведення, інакше пропускна здатність rollout може впасти. Він підкреслює, що дизайн навколишнього середовища став рівнозначним архітектурі моделі і називає «створення середовища перетворюється з побічного проекту у справжню стартап-галузь».
Він прогнозує, що агентське мислення стане домінуючою формою роздумів і навіть може замінити традиційне статичне міркування з довгими внутрішніми монологами. Однак найбільшим ризиком є «хакінг винагороди» (reward hacking): коли модель отримує доступ до реальних інструментів, вона може навчитись шукати відповіді безпосередньо під час RL-тренування, використовувати майбутню інформацію з репозиторіїв або знаходити шляхи обходу завдань. У кінці статті зазначається, що майбутня конкурентна перевага буде залежати не лише від кращих алгоритмів RL, а й від кращого дизайну середовища, більш тісної інтеграції тренування та виведення, а також системних навичок співпраці кількох агентів.