Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Интеллектуальный обзор GLM-5 «Проблема кодировки»: миллиарды вызовов Coding Agent в день, две гонки багов скрыты в KV Cache
Согласно мониторингу Beating, компания Zhipu опубликовала обзор проблем с искажением текста, повторным воспроизведением и редкими символами в серии моделей GLM-5 при использовании сценария Coding Agent. С марта поступают отзывы пользователей, сбои возникают только при высокой нагрузке и длинных контекстах (в среднем более 70K токенов) в задачах Coding Agent, в стандартной среде inference воспроизвести проблему невозможно. Zhipu утверждает, что их система inference обрабатывает сотни миллионов вызовов Coding Agent ежедневно.
После нескольких недель расследования команда выявила два независимых низкоуровневых гонки в коде. Первый связан с архитектурой разделения PD (распределение предварительной обработки и декодирования на разные узлы): при тайм-ауте декодера запрос отменяется и KV Cache (кэшированные состояния внимания, избегая повторных вычислений) освобождается, но запись RDMA на стороне предварительной обработки еще не завершена, новый запрос получает ту же видеопамять, и старые данные перезаписывают новые. Исправление — добавление явной синхронизации перед освобождением, чтобы убедиться, что запись завершена. После внедрения ошибка снизилась с десятих долей процента до менее трети процента.
Второй баг связан с HiCache (многоуровневый KV Cache): при асинхронной загрузке из памяти CPU в кэш отсутствует точка синхронизации между потоками загрузки и вычислений, из-за чего вычислительный блок может начать чтение данных, которые еще не загружены. После исправления такие ошибки полностью исчезли, патч был отправлен в сообщество SGLang (PR #22811).
Во время расследования также было обнаружено неожиданное явление: метрика приемлемости выборки спекулятивных токенов (тех, что сначала предполагаются малой моделью, а затем проверяются большой) может служить сигналом для обнаружения ошибок. При искажении текста почти все черновые токены отвергаются, при повторных воспроизведениях уровень приемлемости заметно выше. Команда внедрила онлайн-мониторинг: при достижении порога генерация автоматически останавливается и повторяется.
После исправления багов команда также оптимизировала узкий место: разделение KV Cache по слоям (LayerSplit KV Cache), при котором каждый GPU хранит только часть слоев, а не весь KV Cache, с помощью координированных вычислений через широковещание. При 90% уровне попадания в кэш, при длине запроса от 40K до 120K, пропускная способность увеличилась на 10% до 132%, а при более длинных контекстах прирост оказался еще выше.