2026-01-07 23:30:06

O aprendizado por reforço costumava ser realmente difícil—avaliar ações do agente, determinar recompensas e penalidades adequadas, atribuir resultados a componentes específicos. Era complicado.

Isso mudou drasticamente. Os grandes modelos de linguagem agora lidam com as tarefas pesadas de avaliação. Com os LLMs gerenciando os ciclos de avaliação e feedback, o que antes exigia um design manual meticuloso tornou-se viável algoritmicamente. O gargalo foi rompido.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

20 Curtidas

Recompensa
20
8
Repostar
Compartilhar

Comentário

0/400

SerumSquirter

· 01-10 22:23

Parece que os LLMs realmente fizeram uma redução de dimensionalidade, e também conseguem lidar com a avaliação do conjunto RL.

Ver originalResponder0

UnruggableChad

· 01-09 06:25

O LLM realmente salvou o problema do RL, a antiga estrutura de recompensas e punições estava a ser um pesadelo, agora basta entregar tudo ao AI e pronto.

Ver originalResponder0

NotAFinancialAdvice

· 01-08 23:17

O LLM assumiu as tarefas difíceis e cansativas do RL, agora o algoritmo pode rodar... Mas parece que está apenas empurrando o problema para outra caixa preta?

Ver originalResponder0

TokenStorm

· 01-07 23:57

A avaliação de LLM é realmente um avanço técnico importante, mas, para ser honesto, será que essa lógica pode ser reutilizada para feedback de dados on-chain? Os dados de backtest parecem bons, mas na prática, sempre sinto que falta alguma coisa... De qualquer forma, ainda não consegui entender completamente, então vou apostar tudo de uma vez [cabeça de cachorro]

Ver originalResponder0

ParallelChainMaxi

· 01-07 23:56

lm substitui diretamente o design manual, esta onda é realmente incrível... mas quem garante que a lógica de avaliação do lm em si não tem problemas?

Ver originalResponder0

TokenomicsTinfoilHat

· 01-07 23:44

llm uma aposta arriscada, o trabalho árduo de rl foi terceirizado, agora realmente há algo de valor

Ver originalResponder0

AlwaysAnon

· 01-07 23:35

Pois, a avaliação com LLM realmente mudou as regras do jogo; aquela rotina de ajuste manual de parâmetros, que era um pesadelo, finalmente deu lugar a uma abordagem mais tranquila.

Ver originalResponder0

gaslight_gasfeez