Реинфорсинг-обучение раньше было действительно сложным — оценка действий агента, определение правильных наград и штрафов, attribution результатов к конкретным компонентам. Это было запутанно.
Теперь ситуация кардинально изменилась. Большие языковые модели (LLMs) теперь берут на себя основную работу по оценке задач. Благодаря тому, что LLMs управляют оценкой и обратной связью, то, что раньше требовало кропотливого ручного проектирования, стало возможным алгоритмически. Узкое место исчезло.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
18 Лайков
Награда
18
7
Репост
Поделиться
комментарий
0/400
UnruggableChad
· 01-09 06:25
llm действительно спасла проблему rl, раньше та система наград и наказаний была ужасной, а теперь просто передали это AI, и всё готово
Посмотреть ОригиналОтветить0
NotAFinancialAdvice
· 01-08 23:17
llm взял на себя грязную и тяжелую работу RL, теперь алгоритм может работать... но кажется, снова передает проблему в другую черную ящик?
Посмотреть ОригиналОтветить0
TokenStorm
· 01-07 23:57
LLM в области оценки действительно является ключевым технологическим прорывом, но честно говоря, можно ли переиспользовать эту логику для обратной связи с данными на блокчейне? Тестовые данные выглядят хорошо, но при реальном запуске всё кажется немного не так... Впрочем, я всё равно не до конца понял, так что сначала сделаю ставку на авось[собачья голова]
Посмотреть ОригиналОтветить0
ParallelChainMaxi
· 01-07 23:56
lm напрямую заменяет ручной дизайн, эта волна действительно крутая... но кто гарантирует, что сама логика оценки lm не содержит ошибок?
Посмотреть ОригиналОтветить0
TokenomicsTinfoilHat
· 01-07 23:44
llm сделал ва-банк, вся грязная работа RL перешла на аутсорс, вот это да, дело пошло
Посмотреть ОригиналОтветить0
AlwaysAnon
· 01-07 23:35
Ну, оценка LLM действительно изменила правила игры, и та кошмарная ручная настройка параметров, которая раньше была, наконец-то стала легче.
Посмотреть ОригиналОтветить0
gaslight_gasfeez
· 01-07 23:33
llm взяли на себя оценку RL? Теперь действительно может быть прорван потолок RL
Реинфорсинг-обучение раньше было действительно сложным — оценка действий агента, определение правильных наград и штрафов, attribution результатов к конкретным компонентам. Это было запутанно.
Теперь ситуация кардинально изменилась. Большие языковые модели (LLMs) теперь берут на себя основную работу по оценке задач. Благодаря тому, что LLMs управляют оценкой и обратной связью, то, что раньше требовало кропотливого ручного проектирования, стало возможным алгоритмически. Узкое место исчезло.