Реинфорсинг-обучение раньше было действительно сложным — оценка действий агента, определение правильных наград и штрафов, attribution результатов к конкретным компонентам. Это было запутанно.



Теперь ситуация кардинально изменилась. Большие языковые модели (LLMs) теперь берут на себя основную работу по оценке задач. Благодаря тому, что LLMs управляют оценкой и обратной связью, то, что раньше требовало кропотливого ручного проектирования, стало возможным алгоритмически. Узкое место исчезло.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Репост
  • Поделиться
комментарий
0/400
UnruggableChadvip
· 01-09 06:25
llm действительно спасла проблему rl, раньше та система наград и наказаний была ужасной, а теперь просто передали это AI, и всё готово
Посмотреть ОригиналОтветить0
NotAFinancialAdvicevip
· 01-08 23:17
llm взял на себя грязную и тяжелую работу RL, теперь алгоритм может работать... но кажется, снова передает проблему в другую черную ящик?
Посмотреть ОригиналОтветить0
TokenStormvip
· 01-07 23:57
LLM в области оценки действительно является ключевым технологическим прорывом, но честно говоря, можно ли переиспользовать эту логику для обратной связи с данными на блокчейне? Тестовые данные выглядят хорошо, но при реальном запуске всё кажется немного не так... Впрочем, я всё равно не до конца понял, так что сначала сделаю ставку на авось[собачья голова]
Посмотреть ОригиналОтветить0
ParallelChainMaxivip
· 01-07 23:56
lm напрямую заменяет ручной дизайн, эта волна действительно крутая... но кто гарантирует, что сама логика оценки lm не содержит ошибок?
Посмотреть ОригиналОтветить0
TokenomicsTinfoilHatvip
· 01-07 23:44
llm сделал ва-банк, вся грязная работа RL перешла на аутсорс, вот это да, дело пошло
Посмотреть ОригиналОтветить0
AlwaysAnonvip
· 01-07 23:35
Ну, оценка LLM действительно изменила правила игры, и та кошмарная ручная настройка параметров, которая раньше была, наконец-то стала легче.
Посмотреть ОригиналОтветить0
gaslight_gasfeezvip
· 01-07 23:33
llm взяли на себя оценку RL? Теперь действительно может быть прорван потолок RL
Посмотреть ОригиналОтветить0
  • Закрепить