O aprendizado por reforço costumava ser realmente difícil—avaliar ações do agente, determinar recompensas e penalidades adequadas, atribuir resultados a componentes específicos. Era complicado.



Isso mudou drasticamente. Os grandes modelos de linguagem agora lidam com as tarefas pesadas de avaliação. Com os LLMs gerenciando os ciclos de avaliação e feedback, o que antes exigia um design manual meticuloso tornou-se viável algoritmicamente. O gargalo foi rompido.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 8
  • Repostar
  • Compartilhar
Comentário
0/400
SerumSquirtervip
· 01-10 22:23
Parece que os LLMs realmente fizeram uma redução de dimensionalidade, e também conseguem lidar com a avaliação do conjunto RL.
Ver originalResponder0
UnruggableChadvip
· 01-09 06:25
O LLM realmente salvou o problema do RL, a antiga estrutura de recompensas e punições estava a ser um pesadelo, agora basta entregar tudo ao AI e pronto.
Ver originalResponder0
NotAFinancialAdvicevip
· 01-08 23:17
O LLM assumiu as tarefas difíceis e cansativas do RL, agora o algoritmo pode rodar... Mas parece que está apenas empurrando o problema para outra caixa preta?
Ver originalResponder0
TokenStormvip
· 01-07 23:57
A avaliação de LLM é realmente um avanço técnico importante, mas, para ser honesto, será que essa lógica pode ser reutilizada para feedback de dados on-chain? Os dados de backtest parecem bons, mas na prática, sempre sinto que falta alguma coisa... De qualquer forma, ainda não consegui entender completamente, então vou apostar tudo de uma vez [cabeça de cachorro]
Ver originalResponder0
ParallelChainMaxivip
· 01-07 23:56
lm substitui diretamente o design manual, esta onda é realmente incrível... mas quem garante que a lógica de avaliação do lm em si não tem problemas?
Ver originalResponder0
TokenomicsTinfoilHatvip
· 01-07 23:44
llm uma aposta arriscada, o trabalho árduo de rl foi terceirizado, agora realmente há algo de valor
Ver originalResponder0
AlwaysAnonvip
· 01-07 23:35
Pois, a avaliação com LLM realmente mudou as regras do jogo; aquela rotina de ajuste manual de parâmetros, que era um pesadelo, finalmente deu lugar a uma abordagem mais tranquila.
Ver originalResponder0
gaslight_gasfeezvip
· 01-07 23:33
O LLM assumiu a avaliação de RL? Agora o teto do RL realmente vai ser rompido.
Ver originalResponder0
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)