A Perplexity revela método de pós-treinamento de agente de busca na web; modelo baseado em Qwen3.5 supera GPT-5.4 em acurácia e custo

Noticiário da Gate, 23 de abril — A equipe de pesquisa da Perplexity publicou um artigo técnico detalhando sua metodologia de pós-treinamento para agentes de busca na web. A abordagem usa dois modelos Qwen3.5 de código aberto (Qwen3.5-122B-A10B e Qwen3.5-397B-A17B) e emprega um pipeline em duas etapas: fine-tuning supervisionado (SFT) para estabelecer aderência a instruções e consistência de linguagem, seguido de aprendizado por reforço online (RL) para otimizar a acurácia da busca e a eficiência do uso de ferramentas.

A fase de RL aproveita o algoritmo GRPO com duas fontes de dados: um conjunto de dados proprietário de perguntas e respostas verificáveis multi-hop construído a partir de consultas iniciais internas que exigem 2–4 saltos de raciocínio com verificação por múltiplos resolvedores, e dados gerais de conversação baseados em rubricas que convertem requisitos de implantação em condições atômicas objetivamente verificáveis para evitar degradação do comportamento do SFT.

O desenho de recompensa emprega agregação filtrada — as pontuações de preferência só contribuem quando a correção do baseline é alcançada (correspondência pergunta-resposta ou quando todos os critérios da rubrica forem atendidos), impedindo que sinais de alta preferência mascarem erros factuais. As penalidades de eficiência usam ancoragem dentro do grupo, aplicando penalidades suaves às chamadas de ferramenta e ao comprimento de geração que excede o baseline de respostas corretas no mesmo grupo.

A avaliação mostra que o Qwen3.5-397B-SFT-RL alcança desempenho de nível superior em benchmarks de busca. Em FRAMES, atinge 57,3% de acurácia com uma única chamada de ferramenta, superando GPT-5.4 em 5,7 pontos percentuais e Claude Sonnet 4.6 em 4,7 pontos percentuais. Com orçamento moderado (quatro chamadas de ferramentas), obtém 73,9% de acurácia a US$ 0,02 por consulta, em comparação com 67,8% de acurácia do GPT-5.4 a US$ 0,085 por consulta e 62,4% de acurácia do Sonnet 4.6 a US$ 0,153 por consulta. Os valores de custo são baseados na precificação pública de API de cada provedor e excluem otimizações de caching.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Anthropic lança /ultrareview para o Claude Code: revisão de código em nuvem com multiagentes

Mensagem do Gate News, 23 de abril — A Anthropic introduziu /ultrareview (research preview), um recurso de revisão de código multiagente baseado em nuvem para o Claude Code. Os usuários podem digitar /ultrareview na CLI para iniciar um grupo de agentes de revisão em um sandbox remoto que trabalham em paralelo para examinar diferenças entre a branch atual e a branch padrão incluindo alterações não confirmadas, ou revisar diretamente PRs do GitHub fornecendo um número de PR. Todo o processo não exige recursos locais e normalmente leva de 5 a 10 minutos, com os resultados retornando à sessão como notificações. A principal distinção em relação à ferramenta local /review está no seu mecanismo de verificação: cada achado é reproduzido e confirmado independentemente por um agente separado, concentrando-se em bugs reais em vez de sugestões de estilo de código. A Anthropic posiciona as duas ferramentas para etapas diferentes do desenvolvimento—/review para feedback rápido durante a codificação, e /ultrareview para uma revisão profunda de mudanças críticas como autenticação ou migração de dadosantes de fazer o merge. Quanto ao preço, /ultrareview usa cobrança adicional de uso e não consome uso incluído no plano. Usuários Pro e Max têm, cada um, 3 utilizações gratuitas antes de 5 de maio uma vez, não renovável, após o que cada revisão custa aproximadamente até dependendo da escala das mudanças. Usuários de Team e Enterprise não têm cota gratuita. O recurso exige autenticação de conta do Claude.ai e não está disponível para Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, ou para organizações com retenção de dados zero habilitada.

GateNews25m atrás

OpenAI Lança Agentes de Workspace do ChatGPT para Automação de Fluxos de Trabalho na Empresa

Mensagem do Gate News, 23 de abril — A OpenAI anunciou a implementação de agentes de workspace no ChatGPT em 22 de abril, apresentando agentes de IA compartilhados projetados para automatizar tarefas complexas e fluxos de trabalho estendidos entre ferramentas e equipes dentro de uma organização. Os agentes são alimentados pelo Codex e operam em um ambiente baseado na nuvem com acesso a arquivos, execução de código, aplicativos conectados e funções de memória.

GateNews26m atrás

Alibaba Cloud Lança JVS Crew, Plataforma de Agente de IA de Nível Empresarial

Mensagem do Gate News, 23 de abril — A Alibaba Cloud lançou oficialmente o JVS Crew, uma plataforma de construção de Agentes de IA de nível empresarial, projetada com uma abordagem "integration-first". A plataforma permite que as empresas incorporem rapidamente recursos de Agente de IA em aplicativos existentes, serviços SaaS ou hardware inteligente

GateNews38m atrás

Bancos de Taiwan se unem para criar uma IA local! Grandes modelos de linguagem financeiros devem entrar no ar até o fim do ano

As 16 instituições financeiras lideradas pela China CITIC Financial Holdings anunciaram o início do projeto de 'modelo financeiro de grande linguagem FinLLM'. A primeira versão do modelo bancário está prevista para ser lançada em agosto, e no 1º trimestre de 2026 serão apresentados agentes de IA baseados no FinLLM. O treinamento começou em maio, com orçamento de cerca de 40–70 milhões de RMB. Devido às exigências regulatórias e às necessidades de localização, o treinamento com base em dados locais é o foco, fortalecendo a IA soberana, construindo uma infraestrutura compartilhada e expandindo para a inclusão financeira. O plano já foi incluído no plano nacional de desenvolvimento de IA e recebeu apoio de vários ministérios e órgãos.

ChainNewsAbmedia2h atrás

CEO do Google: Capex de 2026 chega a US$ 185 bilhões, aumento de investimentos na era dos agentes de IA

O CEO do Google, Sundar Pichai, anunciou em 22 de abril, durante a conferência Google Cloud Next em Las Vegas, que o Google planeja investir de US$ 175 bilhões a US$ 185 bilhões em gastos de capital em 2026, para construir a infraestrutura necessária para agentes de IA (AI Agent) autônomos, um aumento em relação aos US$ 31 bilhões em 2022.

MarketWhisper2h atrás

O Google Jules divulga uma lista de possíveis nomes do novo lançamento aberto e a reposiciona como uma plataforma de desenvolvimento de produtos ponta a ponta

De acordo com um anúncio oficial da equipe do Google Jules em 23 de abril, o posicionamento do produto da Jules foi atualizado de um agente de codificação assíncrona para uma “plataforma de desenvolvimento de produtos agentic ponta a ponta”. A nova versão consegue ler todo o contexto do produto, determinar de forma autônoma a próxima direção de construção e enviar PR. A empresa também anunciou, em simultâneo, a abertura de uma lista de candidatos para a nova versão.

MarketWhisper2h atrás
Comentário
0/400
Sem comentários