V4-Pro 在内部自用测试中实现 67% 编码通过率,逼近 Opus 4.5 性能

Gate News 消息,4月24日——V4 已公开披露其 V4-Pro 模型的内部自用(dogfooding)数据。该公司从 50 多名工程师处收集了约 200 项真实的工程任务,覆盖特性开发、错误修复、重构以及跨技术栈的诊断,包括 PyTorch、CUDA、Rust 和 C++。经过严格筛选后,保留了 30 项任务用于基准评估。

V4-Pro-Max 达到了 67% 的编码通过率,显著优于 Sonnet 4.5 的 47%,并接近 Opus 4.5 的 70%。不过,它仍落后于 Opus 4.5 Thinking (73%) 和 Opus 4.6 Thinking (80%),同时远超 Haiku 4.5 的 13%。

在一次内部调查中,共有 85 名受访者,所有参与者都表示在日常工作流程中使用 V4-Pro 进行具备行动性的(agentic)编码。52% 将 V4-Pro 作为默认的首选编码模型,39% 倾向于认可,而不到 9% 表达不赞同。报告的问题包括底层错误、对含糊提示的误读,以及偶尔出现的过度思考行为。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Cursor 揭选 XAI 訓练原因:算力被卡住,SpaceX 另握 600 亿美元收购期权

Anysphere 公告称 Cursor 将与 xAI 使用 Colossus 基础设施训练新模型以突破算力瓶颈;SpaceX 提出 600 亿美元的收购选择权(2026 年内可整体收购),不行就支付约 100 亿美元作为合作补偿。两笔交易同时进行,重塑谁能训练 Cursor 以及谁能买下 Cursor,Cursor 仍允许多模型后端,但长期走向取决于 SpaceX 是否行使收购权。

鏈新聞abmedia16 分钟前

Anthropic 二级市场估值突破 1 万亿美元:Forge Global 反超 OpenAI 的 8,800 亿

根据 Decrypt 报道,Forge Global 的 Anthropic 二级估值约 1 兆美元,OpenAI 约 8,800 亿美元,二级市场首次出现领先逆转。Anthropic ARR 由 2025 底的约 90 亿增至 2026 年 3 月约 300 亿,三个 在 233%,推动私募估值。二级估值与一级融资不同,反映退出信心;未来仍看技术、政策、商业与叙事四条渠道。

鏈新聞abmedia17 分钟前

Meta Platforms 计划于5月20日进行10%的员工规模削减,影响大约8,000个岗位

Gate News 消息,4月24日——Meta Platforms 计划于5月20日将其员工规模减少约10%,影响大约8,000个岗位。这次裁员旨在提高运营效率,同时增加对人工智能的投资。 所计划的重组体现了该公司向优先发展人工智能与优化运营的战略转变。

GateNews1小时前

川普政府公布打击 AI 提炼计划,控中企系统性窃取模型能力

白宫科技政策办公室(OSTP)总统助理迈克尔·J·克拉齐奥斯(Michael J. Kratsios)于 4 月 23 日发布官方声明,表示特朗普政府掌握信息,显示外国实体(主要位于中国)正在蓄意针对美国大型人工智能公司,通过“数万个代理账户”及越狱技术系统性提取美国 AI 模型能力,并同步公布四项应对措施。

Market Whisper1小时前

DeepSeek 推出 V4 开源预览版,技术评分 3206 超越 GPT-5.4

DeepSeek 于 4 月 24 日正式推出 V4 预览版系列,以 MIT 许可协议开源,模型权重已同步上线 Hugging Face 及 ModelScope。根据 DeepSeek V4 技术报告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基准取得 3206 分,超越 GPT-5.4。

Market Whisper1小时前

寒武纪完成 DeepSeek-V4 的 Day 0 适配,成为中国 AI 芯片生态的重要里程碑

Gate 新闻消息,4月24日——寒武纪今天宣布,它已完成 DeepSeek-V4 的 Day 0 适配。DeepSeek-V4 是 DeepSeek 最新的大型语言模型。寒武纪使用其专有的 NeuWare 软件生态系统以及 vLLM 框架完成了该适配。适配代码已同步开源,标志着

GateNews2小时前
评论
0/400
暂无评论