A Perplexity revela o método de pós-treinamento do agente de pesquisa na web; o modelo baseado em Qwen3.5 supera o GPT-5.4 em precisão e custo

Mensagem do Gate News, 23 de abril — A equipa de investigação da Perplexity publicou um artigo técnico que detalha a sua metodologia de pós-treinamento para agentes de pesquisa na web. A abordagem utiliza dois modelos Qwen3.5 de código aberto (Qwen3.5-122B-A10B e Qwen3.5-397B-A17B) e recorre a um pipeline em duas etapas: fine-tuning supervisionado (SFT) para estabelecer obediência a instruções e consistência linguística, seguido de aprendizagem por reforço online (RL) para otimizar a precisão da pesquisa e a eficiência no uso de ferramentas.

A fase de RL utiliza o algoritmo GRPO com duas fontes de dados: um conjunto de dados proprietário de perguntas e respostas verificáveis multi-hop construído a partir de queries iniciais internas que exigem 2–4 hops de raciocínio com verificação por múltiplos solucionadores, e dados conversacionais gerais baseados em rubricas que convertem requisitos de implementação em condições atómicas objetivamente verificáveis para evitar a degradação do comportamento do SFT.

O desenho de recompensas emprega agregação com gating — as pontuações de preferência só contribuem quando a correcção de base é alcançada (correspondência pergunta-resposta ou quando todos os critérios da rubrica são satisfeitos), impedindo que sinais de preferência elevados mascarem erros factuais. As penalizações de eficiência utilizam ancoragem dentro do grupo, aplicando penalizações suaves às chamadas de ferramentas e ao comprimento da geração que excede a base de respostas correctas no mesmo grupo.

A avaliação mostra que o Qwen3.5-397B-SFT-RL atinge o melhor desempenho de referência em benchmarks de pesquisa. No FRAMES, alcança 57,3% de precisão com uma única chamada de ferramenta, superando o GPT-5.4 em 5,7 pontos percentuais e o Claude Sonnet 4.6 em 4,7 pontos percentuais. Sob um orçamento moderado (quatro chamadas de ferramentas), atinge 73,9% de precisão a $0,02 por consulta, em comparação com 67,8% de precisão do GPT-5.4 a $0,085 por consulta e 62,4% de precisão do Sonnet 4.6 a $0,153 por consulta. Os valores de custo baseiam-se na tarifação pública por API de cada fornecedor e excluem optimizações de caching.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Incumprimento de Segurança da Vercel Expande-se para Centenas de Utilizadores; Desenvolvedores de IA em Maior Risco

Mensagem do Gate News, 23 de abril — A Vercel divulgou a 19 de abril que o seu incidente de segurança, inicialmente descrito como afetando um "conjunto limitado de clientes", se expandiu para uma comunidade de programadores muito mais vasta, em particular aqueles que criam fluxos de trabalho de agentes de IA. O ataque pode afetar centenas de utilizadores

GateNews24m atrás

OpenAI lança o GPT-5.5: 12M de contexto, o índice AA atinge o topo, o Terminal-Bench reescreve a referência de agentes com 82,7%

A OpenAI anunciou o GPT-5.5, com destaque para trabalho orientado por agentes e processamento de conhecimento empresarial, e disponibilizou-o em simultâneo no ChatGPT e no Codex. Os pontos principais incluem uma janela de contexto de 12 milhões de tokens, AA Intelligence Index 60, superando o Claude Opus 4.7 e o Gemini 3.1 Pro; o preço é de 5 dólares por cada milhão de tokens de entrada e 30 dólares por cada milhão de tokens de saída, com uma redução de cerca de 40% nos tokens de saída e um aumento de cerca de 20% no custo real.

ChainNewsAbmedia1h atrás

MagicBlock Lança Mirage, Ferramenta de Pagamentos de Privacidade em Linha de Comandos para a Solana

Mensagem de Notícias da Gate, 23 de Abril — A MagicBlock lançou o Mirage, uma ferramenta de pagamentos de privacidade em linha de comandos, concebida para a rede Solana. A ferramenta permite aos utilizadores criar carteiras, depositar fundos e enviar transacções privadas através de comandos de terminal, bots ou agentes de IA. O Mirage é construído com Private

GateNews5h atrás

OpenClaw 2026.4.22 Unifica o Ciclo de Vida dos Plugins Entre os Harness Codex e Pi, Reduz o Tempo de Carregamento dos Plugins em Até 90%

Mensagem do Gate News, 23 de abril — OpenClaw, uma plataforma open-source de Agentes de IA, lançou a versão 2026.4.22 a 22 de abril, com a sua maior mudança a ser o alinhamento dos ciclos de vida do Codex harness e do Pi harness. Anteriormente, os plugins comportavam-se de forma inconsistente entre as duas vias de harness, com alguns hooks em falta em certos ambientes.

GateNews6h atrás

Google Cloud e CVC fazem parceria para acelerar a transformação de agentes de IA para as empresas do portefólio

Mensagem de Gate News, 23 de Abril — A Google Cloud e o gigante de private equity CVC anunciaram uma parceria estratégica para acelerar a transformação de agentes de IA para a CVC e para centenas de empresas no seu portefólio de investimentos. A colaboração irá tirar partido da plataforma de inteligência artificial da Google Cloud e

GateNews8h atrás
Comentar
0/400
Nenhum comentário