2026-01-07 23:30:06

Реинфорсинг-обучение раньше было действительно сложным — оценка действий агента, определение правильных наград и штрафов, attribution результатов к конкретным компонентам. Это было запутанно.

Теперь ситуация кардинально изменилась. Большие языковые модели (LLMs) теперь берут на себя основную работу по оценке задач. Благодаря тому, что LLMs управляют оценкой и обратной связью, то, что раньше требовало кропотливого ручного проектирования, стало возможным алгоритмически. Узкое место исчезло.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

18 Лайков

Награда
18
7
Репост
Поделиться

комментарий

0/400

UnruggableChad

· 01-09 06:25

llm действительно спасла проблему rl, раньше та система наград и наказаний была ужасной, а теперь просто передали это AI, и всё готово

Посмотреть ОригиналОтветить0

NotAFinancialAdvice

· 01-08 23:17

llm взял на себя грязную и тяжелую работу RL, теперь алгоритм может работать... но кажется, снова передает проблему в другую черную ящик?

Посмотреть ОригиналОтветить0

TokenStorm

· 01-07 23:57

LLM в области оценки действительно является ключевым технологическим прорывом, но честно говоря, можно ли переиспользовать эту логику для обратной связи с данными на блокчейне? Тестовые данные выглядят хорошо, но при реальном запуске всё кажется немного не так... Впрочем, я всё равно не до конца понял, так что сначала сделаю ставку на авось[собачья голова]

Посмотреть ОригиналОтветить0

ParallelChainMaxi