Perplexity offenbart Methode zum Post-Training von Web-Search-Agenten; auf Qwen3.5 basierendes Modell übertrifft GPT-5.4 bei Genauigkeit und Kosten

Sendehinweis, 23. April — Das Forschungsteam von Perplexity veröffentlichte einen technischen Artikel, der seine Post-Training-Methodik für Web-Search-Agenten im Detail beschreibt. Der Ansatz nutzt zwei Open-Source-Qwen3.5-Modelle (Qwen3.5-122B-A10B und Qwen3.5-397B-A17B) und setzt auf eine Zwei-Phasen-Pipeline: Supervised Fine-Tuning (SFT), um regelkonformes Befolgen von Anweisungen und sprachliche Konsistenz zu etablieren, gefolgt von Online Reinforcement Learning (RL), um Suchgenauigkeit und Tool-Use-Effizienz zu optimieren.

Die RL-Phase nutzt den GRPO-Algorithmus mit zwei Datenquellen: einen proprietären Multi-Hop-verifizierbaren Frage-Antwort-Datensatz, der aus internen Seed-Queries erstellt wurde, die 2–4 Reasoning-Hops mit Multi-Solver-Verifikation erfordern, sowie rubrikbasierte allgemeine Konversationsdaten, die die Einsatzanforderungen in objektiv prüfbare atomare Bedingungen umwandeln, um eine Degradation des SFT-Verhaltens zu verhindern.

Das Reward-Design verwendet gated Aggregation — Preferences-Scores tragen nur bei, wenn die Baseline-Korrektheit erreicht ist (question-answer match oder alle Rubrik-Kriterien erfüllt), wodurch verhindert wird, dass starke Preference-Signale faktische Fehler überdecken. Effizienz-Strafen verwenden innerhalb von Gruppen verankertes Ankern: Es werden glatte Strafen für Tool-Calls und für die Generationslänge angewendet, die die Baseline der korrekten Antworten in derselben Gruppe überschreiten.

Die Evaluierung zeigt, dass Qwen3.5-397B-SFT-RL eine erstklassige Performance über Such-Benchmarks hinweg erreicht. Bei FRAMES erzielt es 57,3% Genauigkeit mit einem einzelnen Tool-Call und übertrifft GPT-5.4 um 5,7 Prozentpunkte sowie Claude Sonnet 4.6 um 4,7 Prozentpunkte. Bei moderatem Budget (vier Tool-Calls) erreicht es 73,9% Genauigkeit bei $0.02 pro Query, im Vergleich zu GPT-5.4s 67,8% Genauigkeit bei $0.085 pro Query und Sonnet 4.6s 62,4% Genauigkeit bei $0.153 pro Query. Die Kostendaten basieren auf der öffentlich verfügbaren API-Preisgestaltung jedes Anbieters und schließen Caching-Optimierungen aus.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

OpenAI deckt überraschende Auswirkungen von CoT-Bewertungen auf: Die Überwachung der Gedankenketten als entscheidende Schutzlinie für die Ausrichtung von KI-Agenten

OpenAI hat am 8. Mai eine neue Studie veröffentlicht und dabei aufgedeckt, dass im Verlauf des verstärkten Lernens (RL) in Teilen der Modelle die „Gedankenketten“ (Chain of Thought, CoT) versehentlich „bewertet“ wurden, was möglicherweise die Überwachungsfähigkeit von KI-Agenten hinsichtlich der Ausrichtung (alignment) beeinträchtigt. Das OpenAI-Alignment-Team berichtet: Die Beibehaltung der Überwachbarkeit von CoT sei die entscheidende Schutzlinie gegen das Scheitern der Ausrichtung von KI-Agen

ChainNewsAbmedia2Std her

Drei chinesische Regierungsbehörden veröffentlichen Richtlinien zur Entwicklung des intelligenten Internets am 8. Mai

Laut Gelonghui haben die Cyberspace Administration of China, die National Development and Reform Commission sowie das Ministerium für Industrie und Informationstechnologie gemeinsam am 8. Mai die „Umsetzungshinweise zur standardisierten Anwendung und innovativen Entwicklung intelligenter Agenten“ herausgegeben. Die Richtlinie

GateNews4Std her

Hermes Agent führt heute die OpenRouter-Nutzungsrangliste mit 271 Milliarden Tokens an und überholt OpenClaw

Laut Nous Research belegte Hermes Agent heute den ersten Platz in der globalen Rangliste zur Nutzung von Anwendungs-Token von OpenRouter mit 271 Milliarden Tokens und überholte OpenClaw, das mit 245 Milliarden Tokens den zweiten Platz einnahm. Kilo Code (149 Milliarden) und Claude Code (79 Milliarden) folgten auf den dritten und vierten Plätzen. Die ersten vier Plätze wurden von Agent- und CLI-Programmier-Tools dominiert, was eine starke Entwicklernachfrage nach Code-Automatisierung und KI-Agent

GateNews5Std her

SwarmBase integriert den AIDEN-Agent von IQ AI am 7. Mai

Laut der offiziellen Ankündigung von IQ AI vom 7. Mai hat SwarmBase den AIDEN-AI-Agenten in seine dezentrale Community-Infrastruktur integriert, um den Zugang zu Blockchain-Wissen zu verbessern. AIDEN fungiert als intelligenter Assistent, der Nutzern hilft, komplexe Blockchain-Begriffe zu verstehen,

GateNews19Std her

Exodus bringt XO Cash auf den Markt: Stablecoin für einen KI-Agenten auf Solana – mit AgentKit-Entwicklertools

Laut Globenewswire hat Exodus heute XO Cash gestartet, eine ausschließlich für KI-Agenten verfügbare Stablecoin auf Solana. Das Unternehmen veröffentlichte gleichzeitig AgentKit, ein Entwickler-Toolkit, das es ermöglicht, mit einzelnen API-Aufrufen unabhängige Wallets für KI-Agenten zu erstellen. Agenten können direkt Exodus-Pay-Guthaben abrufen für

GateNews22Std her

Chinas drei Behörden veröffentlichen Leitlinien für KI-Agenten mit 19 typischen Anwendungsszenarien

Laut PANews haben die Cyberspace-Administration von China, die Nationale Entwicklungs- und Reformkommission sowie das Ministerium für Industrie und Informationstechnologie heute (8. Mai) gemeinsam Leitlinien zu KI-Agenten veröffentlicht. Das Dokument definiert einen KI-Agenten als ein autonomes

GateNews05-08 10:12
Kommentieren
0/400
Keine Kommentare