Perplexity 揭示网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本方面优于 GPT-5.4

发布新闻消息,4 月 23 日——Perplexity 的研究团队发表了一篇技术文章,详细介绍其面向网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。

RL 阶段使用 GRPO 算法并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,这些查询需要 2–4 跳推理,并通过多解算器验证;以及基于评分细则的通用对话数据,它将部署需求转换为客观可核查的原子条件,从而防止 SFT 行为退化。

奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入,即 (question-answer match 或所有评分细则条件都满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。

评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 的成本实现 73.9% 的准确率;相比之下,GPT-5.4 在每次查询 $0.085 下准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 下准确率为 62.4%。成本数据基于各提供方的公开 API 定价,并排除缓存优化。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

توسع اختراق أمني من Vercel ليصل إلى مئات المستخدمين؛ مطورو الذكاء الاصطناعي على قدر أعلى من المخاطر

رسالة Gate News ، 23 أبريل — كشفت Vercel في 19 أبريل أن حادثة أمنية لديها، التي وُصفت في البداية بأنها تؤثر على "فئة محدودة من العملاء"، قد توسعت لتشمل مجتمعًا أوسع بكثير من المطورين، ولا سيما أولئك الذين يبنون سير عمل وكلاء الذكاء الاصطناعي. قد يؤثر الهجوم في مئات المستخدمين

GateNewsمنذ 24 د

OpenAI تُطلق GPT-5.5: سياق 12M، مؤشر AA يتصدر القمة، وTerminal-Bench بنسبة 82.7% يعيد كتابة معيار الوكلاء

أعلنت OpenAI عن GPT-5.5، مع التركيز على العمل بنهج الوكلاء ومعالجة المعرفة للشركات، كما تم طرحها بالتزامن على ChatGPT وCodex. تتضمن النقاط الرئيسية نافذة سياق مكونة من 1200 مليون توكن، وAA Intelligence Index 60، وتتقدم على Claude Opus 4.7 وGemini 3.1 Pro؛ السعر هو 5 دولارات أمريكية لإدخال كل مليون توكن و30 دولارًا أمريكيًا للإخراج لكل مليون توكن، وينخفض عدد التوكنات الناتجة بنحو 40%، وترتفع التكلفة الفعلية بنحو 20%.

ChainNewsAbmediaمنذ 1 س

MagicBlock تطلق Mirage، أداة دفع خصوصية عبر سطر الأوامر مخصصة لـ Solana

رسالة أخبار بوابة، 23 أبريل — أطلقت MagicBlock Mirage، أداة دفع خصوصية تعمل عبر سطر الأوامر ومصممة لشبكة Solana. تتيح الأداة للمستخدمين إنشاء محافظ وإيداع الأموال وإرسال معاملات خاصة عبر أوامر الطرفية أو الروبوتات أو وكلاء الذكاء الاصطناعي. تم بناء Mirage على Private

GateNewsمنذ 5 س

OpenClaw 2026.4.22 统一 Codex 和 Pi Harness 之间的插件生命周期,将插件加载时间最多减少 90%

Gate 新闻消息,4月23日——OpenClaw,一个开源 AI 代理平台,于 4月22日发布了 2026.4.22 版本,其最大的变化在于对 Codex harness 和 Pi harness 的生命周期进行对齐。此前,插件在两条 harness 路径中表现不一致,某些环境下会缺失部分 hooks

GateNewsمنذ 6 س

Google Cloud وCVC يتعاونان لتسريع تحول وكلاء الذكاء الاصطناعي للشركات في المحفظة

رسالة أخبار البوابة، 23 أبريل — أعلنت Google Cloud، إلى جانب عملاق الأسهم الخاصة CVC، عن شراكة استراتيجية لتسريع تحول وكلاء الذكاء الاصطناعي لـ CVC ولِمئات الشركات ضمن محفظتها الاستثمارية. ستستفيد هذه الشراكة من منصة الذكاء الاصطناعي لدى Google Cloud و

GateNewsمنذ 8 س
تعليق
0/400
لا توجد تعليقات