GPT-5.5 تعود إلى الصدارة في البرمجة، لكن OpenAI تغيّر المعايير بعد الخسارة أمام Opus 4.7

رسالة أخبار البوابة، 27 أبريل — أصدرت شركة SemiAnalysis، وهي شركة متخصصة في تحليل أشباه الموصلات والذكاء الاصطناعي، معيارًا/مقارنة مرجعية (benchmark) لتقييم المساعدين البرمجيين، بما في ذلك GPT-5.5 و Claude Opus 4.7 و DeepSeek V4. وكانت النتيجة الرئيسية: تُعدّ GPT-5.5 أول عودة من OpenAI إلى صدارة التقدم في نماذج البرمجة خلال ستة أشهر، حيث بات مهندسو SemiAnalysis يتناوبون الآن بين Codex وClaude Code بعد أن كانوا يعتمدون تقريبًا حصريًا على Claude. تستند GPT-5.5 إلى نهج تدريب مسبق جديد مُشفّر باسم “Spud” وتمثل أول توسع في حجم التدريب المسبق من OpenAI منذ GPT-4.5.

في الاختبارات العملية، ظهرت قسمة واضحة للأدوار. يتولى Claude تخطيط المشروعات الجديدة والإعداد الأولي، بينما يتفوق Codex في إصلاحات الأعطال التي تتطلب التفكير المكثف. يُظهر Codex فهمًا أقوى لهياكل البيانات والاستدلال المنطقي، لكنه يواجه صعوبة في استنتاج نية المستخدم الغامضة. في مهمة ضمن لوحة تحكم واحدة، أعاد Claude تلقائيًا تخطيط صفحة المرجع لكنه اخترع كميات كبيرة من البيانات، بينما تخطى Codex التخطيط لكنه قدّم بيانات أدق بكثير.

تكشف التحليلات عن تفاصيل تلاعب بالمعيار/المقارنة المرجعية: حثّت مشاركة مدونة OpenAI في فبراير الصناعة على اعتماد SWE-bench Pro بوصفه المعيار/المرجع الجديد لمقاييس البرمجة. ومع ذلك، غيّرت إعلانات GPT-5.5 إلى معيار/مرجع جديد يُسمى “Expert-SWE.” والسبب، المدفون في تفاصيل دقيقة، هو أن GPT-5.5 تفوقت عليها Opus 4.7 على SWE-bench Pro وتراجعت بشكل كبير عن Mythos (77.8%) غير المُعلن من Anthropic.

وبخصوص Opus 4.7، نشرت Anthropic تحليلًا بعد الوفاة (postmortem) بعد أسبوع واحد من الإصدار، واعترفت بوجود ثلاث حالات خلل (bugs) في Claude Code استمرت لعدة أسابيع من مارس إلى أبريل، مما أثّر على ما يقرب من جميع المستخدمين. وكان قد أبلغ عدة مهندسين سابقًا عن تدهور في الأداء في الإصدار 4.6، لكن تم تجاهل ذلك باعتباره ملاحظات ذاتية. بالإضافة إلى ذلك، فإن المُرمّز (tokenizer) الجديد في Opus 4.7 يزيد استخدام الـ tokens بنسبة تصل إلى 35%، وهو ما اعترفت به Anthropic بشكل صريح—وهو ما يشكّل فعليًا زيادةً خفية في السعر.

تم تقييم DeepSeek V4 على أنه “يواكب وتيرة الخط الأمامي لكنه لا يتصدر,” مع وضع نفسه كبديل الأقل تكلفة بين نماذج المصدر المغلق. وأشارت التحليلات أيضًا إلى أن “Claude لا يزال يتفوق على DeepSeek V4 Pro في مهام الكتابة الصينية عالية الصعوبة،” مع تعليق بأن “Claude فاز على النموذج الصيني بلغته الخاصة.”

يقدم المقال مفهومًا رئيسيًا: ينبغي تقييم تسعير النماذج من خلال “تكلفة المهمة” بدلًا من “تكلفة الـ token.” إن تسعير GPT-5.5 ضعف تسعير GPT-5.4 (input $5, output $30 per million tokens)، لكنه ينجز المهام نفسها باستخدام tokens أقل، مما يعني أن التكلفة الفعلية ليست بالضرورة أعلى. تُظهر بيانات SemiAnalysis الأولية أن نسبة إدخال Codex إلى إخراجه هي 80:1، وهي أقل من نسبة Claude Code البالغة 100:1.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

DeepSeek V4 Pro على Ollama Cloud: اتصال بنقرة واحدة لـ Claude Code

وفقًا لتغريدة من Ollama، تم إصدار DeepSeek V4 Pro في 4/24، وقد تم إدراجه في دليل Ollama بنمط السحابة (Cloud)؛ ويمكن استدعاء أدوات مثل Claude Code وHermes وOpenClaw وOpenCode وCodex وغيرها بأمر واحد فقط. تضم V4 Pro 1.6T参数 و1M context، مع Mixture-of-Experts؛ لا يقوم الاستدلال عبر السحابة بتنزيل الأوزان على الجهاز المحلي. إذا كنت تريد تشغيله محليًا، فستحتاج إلى جلب الأوزان بنفسك وتنفيذه باستخدام INT4/GGUF وبوحدات GPU متعددة. تأثرت اختبارات الأداء المبكرة بحِمل الخادم السحابي؛ فمعدل الوضع الطبيعي حوالي 30 tok/s، بينما القمة 1.1 tok/s. يُنصح باستخدام النموذج عبر السحابة (prototype)؛ وعند بدء الإنتاج الرسمي يمكنك إجراء الاستدلال بنفسك أو استخدام واجهة برمجة تطبيقات تجارية.

ChainNewsAbmediaمنذ 13 د

DeepSeek 将 V4-Pro 价格下调 75%,将 API 缓存成本削减至原来的十分之一

Gate 新闻消息,4月27日——DeepSeek 宣布,其面向开发者的全新 V4-Pro 模型提供 75% 的折扣,并将其 API 产品线中输入缓存命中价格下调至此前水平的十分之一。 V4 模型于 4 月 25 日以 Pro 和 Flash 版本发布,已针对华为的昇腾处理器进行了优化。DeepSeek 表示,V4-Pro 在世界知识基准测试中优于其他开源模型,并且仅次于谷歌的闭源 Gemini-Pro-3.1。V4 系列专门为处理超出聊天机器人能力的复杂任务的 AI 代理而设计。 V4-Pro API 成本已低于主要的西方竞争对手,定价为每 100 万输出 tokens 3.48 美元,而 对应 OpenAI 的 GPT-4.5。V4-Flash 定价为每 100 万输入 tokens 0.14 美元、每 100 万输出 tokens 0.28 美元,这可能使诸如在单次请求中审阅完整代码库或监管文件等具成本效益的应用成为可能。

GateNewsمنذ 15 د

تتحول Coachella إلى ذكاء Google DeepMind لإعادة تصور الحفلات الموسيقية بما يتجاوز المسرح

تعاونت شركة Coachella مع Google DeepMind لاختبار أدوات ذكاء اصطناعي جديدة تعيد تشكيل كيفية إنشاء عروض الموسيقى الحية وكيف تُختبر. الملخص اختبرت Coachella أدوات ذكاء اصطناعي مع Google DeepMind لتحويل العروض الحية إلى بيئات رقمية تفاعلية. تم بناء ثلاثة نماذج أولية،

Cryptonewsمنذ 22 د

郭明錤: يجب أن تقوم OpenAI ببناء هاتف محمول يعمل بوكلاء الذكاء الاصطناعي، وتُعد MediaTek وQualcomm وLuxshare Technologies سلاسل التوريد الرئيسية

郭明錤 يزعم أن OpenAI تعمل بالتعاون مع MediaTek وQualcomm وLuxshare Precision لتطوير هاتف يعمل بوكلاء ذكاء اصطناعي (AI Agent)، مع توقع بدء الإنتاج الضخم في عام 2028. سيعتمد الهاتف الجديد على إنجاز المهام كجوهر، حيث يفهم الوكيل الذكي المتطلبات وينفذها، مع دمج الحوسبة على السحابة وعلى الجهاز، مع التركيز على الاستشعار وفهم السياق. من المتوقع أن يتم حسم قائمة المواصفات وسلسلة التوريد في الفترة 2026–2027، وإذا تحقق ذلك، فقد يؤدي إلى دورة ترقية جديدة للهواتف في سوق الفئة الراقية، ومن الممكن أن تصبح Luxshare هي المستفيد الرئيسي.

ChainNewsAbmediaمنذ 31 د

الوكالة الدولية للطاقة: إن إنفاق البنية التحتية للذكاء الاصطناعي قد تجاوز بالفعل استثمارات إنتاج النفط والغاز، ومن المتوقع أن يزيد بنسبة 75% أخرى في عام 2026

وفقًا لتحليل وبيانات السوق الصادرة عن وكالة الطاقة الدولية (IEA) في 26 أبريل، تجاوز إجمالي النفقات الرأسمالية لدى أكبر خمس شركات تكنولوجية في عام 2025 400 مليار دولار، وتم توجيهها بشكل أساسي إلى بناء البنية التحتية للذكاء الاصطناعي، حيث أصبحت أحجامها تتجاوز حجم الاستثمار السنوي عالميًا في إنتاج النفط والغاز الطبيعي. وتقدّر وكالة الطاقة الدولية أن النفقات الرأسمالية ذات الصلة في عام 2026 قد تنمو أكثر بنسبة 75%.

MarketWhisperمنذ 1 س

ينتقد السيناتور بيرني ساندرز التحذير من التهديد الوجودي الذي يشكّله الذكاء الاصطناعي

شدد ساندرز على أنه حتى مع اعتراف أغلب علماء الذكاء الاصطناعي بإمكانية هروب الذكاء الاصطناعي من السيطرة وتحوله إلى خطر على وجودنا، لم يتم اتخاذ أي تدابير رئيسية لتفادي ذلك. وقال: “يجب أن نتأكد من أن الذكاء الاصطناعي يفيد البشرية، لا أن يؤذينا”. أبرز النقاط الرئيسية: بيرني ساندرز

Coinpediaمنذ 1 س
تعليق
0/400
لا توجد تعليقات