GPT-5.5 กลับมาล้ำหน้าในการเขียนโค้ด แต่ OpenAI เปลี่ยนเกณฑ์มาตรฐานหลังแพ้ Opus 4.7

ข่าวประจำเกต 27 เมษายน — SemiAnalysis บริษัทวิเคราะห์เซมิคอนดักเตอร์และ AI ได้เผยแพร่มาตรฐานเปรียบเทียบเชิงเปรียบเทียบของผู้ช่วยการเขียนโค้ด รวมถึง GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ผลค้นหาที่สำคัญ: GPT-5.5 แสดงถึงการกลับสู่ขอบล้ำในการพัฒนาโมเดลการเขียนโค้ดของ OpenAI เป็นครั้งแรกในรอบหกเดือน โดยวิศวกรของ SemiAnalysis ตอนนี้สลับไปมาระหว่าง Codex และ Claude Code หลังจากก่อนหน้านี้พึ่งพา Claude เกือบทั้งหมด GPT-5.5 อ้างอิงจากแนวทางการพรีเทรนแบบใหม่ที่มีชื่อรหัสว่า “Spud” และถือเป็นการขยายขนาดการพรีเทรนครั้งแรกของ OpenAI นับตั้งแต่ GPT-4.5.

ในการทดสอบเชิงปฏิบัติที่ชัดเจน ได้แยกบทบาทออกมาอย่างชัดเจน Claude จัดการการวางแผนโครงการใหม่และการตั้งค่าเริ่มต้น ในขณะที่ Codex โดดเด่นสำหรับการแก้บั๊กที่ต้องใช้การให้เหตุผลหนักๆ Codex แสดงความเข้าใจโครงสร้างข้อมูลและการให้เหตุผลเชิงตรรกะที่แข็งแกร่งกว่า แต่กลับมีปัญหาในการคาดเดาความตั้งใจของผู้ใช้ที่ไม่ชัดเจน ในงานที่คล้ายกันบนแดชบอร์ดเดียว Claude คัดลอกเค้าโครงหน้าจากตัวอย่างได้โดยอัตโนมัติแต่ได้สร้างข้อมูลจำนวนมากขึ้นมา ในขณะที่ Codex ข้ามเรื่องเค้าโครงแต่ให้ข้อมูลที่แม่นยำกว่ามาก

การวิเคราะห์เผยรายละเอียดเกี่ยวกับการปรับแต่งเกณฑ์มาตรฐาน: โพสต์บล็อกของ OpenAI ในเดือนกุมภาพันธ์ได้เรียกร้องให้วงการนำ SWE-bench Pro มาเป็นมาตรฐานใหม่สำหรับการประเมินเกณฑ์การเขียนโค้ด อย่างไรก็ตาม การประกาศของ GPT-5.5 ได้เปลี่ยนไปใช้เกณฑ์มาตรฐานใหม่ที่ชื่อ “Expert-SWE” เหตุผล—ซ่อนอยู่ในส่วนปลีกย่อย—คือ GPT-5.5 ถูก Opus 4.7 แซงบน SWE-bench Pro และทำผลงานได้ต่ำกว่ามากเมื่อเทียบกับ Mythos ที่ยังไม่เผยแพร่ของ Anthropic (77.8%).

สำหรับ Opus 4.7 Anthropic เผยแพร่การวิเคราะห์สรุปหลังเหตุการณ์ (postmortem) หนึ่งสัปดาห์หลังการเปิดตัว โดยยอมรับบั๊กสามจุดใน Claude Code ที่ยังคงอยู่ต่อเนื่องเป็นเวลาหลายสัปดาห์ตั้งแต่เดือนมีนาคมถึงเมษายน ส่งผลกระทบต่อผู้ใช้งานเกือบทั้งหมด วิศวกรหลายคนเคยรายงานว่าประสิทธิภาพลดลงในเวอร์ชัน 4.6 มาก่อน แต่ถูกมองว่าเป็นข้อสังเกตเชิงอัตวิสัย นอกจากนี้ โทเคไนเซอร์ใหม่ของ Opus 4.7 เพิ่มการใช้งานโทเคนได้สูงถึง 35% ซึ่ง Anthropic ยอมรับอย่างตรงไปตรงมา—ซึ่งเท่ากับเป็นการขึ้นราคาที่ซ่อนอยู่โดยปริยาย

DeepSeek V4 ถูกประเมินว่า “ตามทันความก้าวหน้าในระดับแนวหน้าแต่ไม่ได้เป็นผู้นำ” โดยวางตำแหน่งตัวเองเป็นทางเลือกที่มีต้นทุนต่ำที่สุดในบรรดาโมเดลที่ปิดซอร์ส การวิเคราะห์ยังระบุว่า “Claude ยังคงทำผลงานได้ดีกว่า DeepSeek V4 Pro ในงานเขียนภาษาจีนที่มีความยากสูง” โดยแสดงความคิดเห็นว่า “Claude ชนะโมเดลภาษาจีนในภาษาเดียวกับที่มันใช้”

บทความนำเสนอแนวคิดสำคัญว่า ควรประเมินราคาของโมเดลด้วย “ต้นทุนต่อหนึ่งงาน” แทนที่จะเป็น “ต้นทุนต่อหนึ่งโทเคน” ราคาของ GPT-5.5 เป็นสองเท่าของ GPT-5.4 (input $5, output $30 per million tokens) แต่ทำงานเดียวกันได้โดยใช้โทเคนน้อยกว่า ดังนั้นต้นทุนที่แท้จริงจึงไม่ได้จำเป็นต้องสูงขึ้น ข้อมูลเบื้องต้นจาก SemiAnalysis แสดงว่าอัตราส่วนอินพุตต่อเอาต์พุตของ Codex อยู่ที่ 80:1 ต่ำกว่าของ Claude Code ที่ 100:1.

news.article.disclaimer

btc.bar.articles

Microsoft ปรับใช้ Copilot ให้กับพนักงาน Accenture จำนวน 743,000 คน

ตามรายงานของ Reuters Microsoft กำลังทยอยเปิดตัว Microsoft 365 Copilot ให้กับพนักงานทั้ง 743,000 คนของ Accenture ซึ่งถือเป็นการติดตั้งใช้งานระดับองค์กรที่ใหญ่ที่สุดของบริษัทจนถึงปัจจุบัน การเคลื่อนไหวครั้งนี้ขยายแผนปี 2024 ของ Accenture ที่จะนำ Copilot ไปให้พนักงานได้มากถึง 300,000 คน การสำรวจของ Accenture

CryptoFrontier31 นาที ที่แล้ว

DeepSeek เพิ่มทุนจดทะเบียน 50% โดยสัดส่วนการถือครองของผู้ก่อตั้งเหลียง เหวินเฟิง เพิ่มขึ้นเป็น 34%

ข้อความ Gate News วันที่ 28 เมษายน — ตามข้อมูลจาก Qichacha บริษัท DeepSeek (Hangzhou Deepseek AI Basic Technology Research Co., Ltd.) เพิ่มทุนจดทะเบียนจาก 10 ล้านหยวนเป็น 15 ล้านหยวน การสนับสนุนทุนจดทะเบียนของผู้ก่อตั้งเหลียง เหวินเฟิง เพิ่มจาก 1 ล้านหยวนเป็น 5.1 ล้านหยวน

GateNews37 นาที ที่แล้ว

Meta สะสมพลังงานโซลาร์และระบบกักเก็บพลังงานสำหรับศูนย์ข้อมูล AI มากกว่า 1GW

Meta ได้ลงนามข้อตกลงด้านพลังงานกับ Overview Energy และ Noon Energy เพื่อให้มั่นใจถึงกำลังการผลิตไฟฟ้าสำหรับศูนย์ข้อมูลปัญญาประดิษฐ์ของตน ตามรายงานของ The Economic Times บริษัทได้สำรองไว้สูงสุดถึง 1 กิกะวัตต์

CryptoFrontier41 นาที ที่แล้ว

Zhipu Z.ai ขยายระยะเวลาส่งเสริมการขายโควตาทริปเปิลของแผน GLM Coding Plan ไปจนถึงวันที่ 30 มิถุนายน

ข่าวประจำ Gate วันที่ 28 เมษายน — Zhipu Z.ai ประกาศขยายระยะเวลาส่งเสริมการขายโควตาทริปเปิลของแผน GLM Coding Plan จากเดิมที่มีกำหนดถึงวันที่ 30 เมษายน เป็นวันที่ 30 มิถุนายน ครอบคลุมทั้งโมเดล GLM-5.1 และ GLM-5-Turbo. โปรโมชั่นนี้มีให้บริการในช่วงเวลาประเทศสหรัฐอเมริกาตะวันออก ตั้งแต่ 6:00 AM ถึง 2:00 AM ของวันถัดไป. GLM Coding

GateNews56 นาที ที่แล้ว

TSMC เร่งการขยายตัวด้วยอัตราเป็นสองเท่า เตรียมเพิ่มกำลังการผลิตด้วยโรงงาน 2nm จำนวนห้าแห่งในปี 2026

ข่าวจาก Gate น อัปเดตวันที่ 28 เมษายน — บริษัท Taiwan Semiconductor Manufacturing Company (TSMC) เร่งการขยายกำลังการผลิตด้วยอัตราเป็นสองเท่าของจังหวะในประวัติศาสตร์ เพื่อรองรับความต้องการที่พุ่งสูงจากปัญญาประดิษฐ์และการประมวลผลประสิทธิภาพสูง ตามคำกล่าวของ ห ว อ ยงฉี น (Hou Yongqing) รองประธานอาวุโสของ TSMC บริษัทจะเร่งเดินสายการผลิตพร้อมกันที่โรงงานขนาด 2 นาโนเมตรจำนวนห้าแห่งในปีนี้. The

GateNews1 ชั่วโมง ที่แล้ว

GitHub Copilot เปลี่ยนเป็นการเรียกเก็บเงินตามจำนวนโทเค็น เริ่ม 1 มิถุนายน ค่ารายเดือนยังไม่เปลี่ยน

ข้อความจาก Gate News วันที่ 28 เมษายน — GitHub ประกาศว่าแผน Copilot ทั้งหมดจะเปลี่ยนไปใช้การเรียกเก็บเงินตามจำนวนโทเค็น มีผลตั้งแต่วันที่ 1 มิถุนายน 2026 รูปแบบการกำหนดราคาเดิมแบบ "premium request" จะถูกแทนที่ด้วย GitHub AI Credits โดยการใช้งานจะคำนวณจากการใช้โทเค็นจริง (รวมถึงอินพุต เอาต์พุต และโทเค็นที่แคชไว้ ในอัตราที่สอดคล้องกับราคาสาธารณะของ API ของแต่ละโมเดล

GateNews1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น