Kết quả tìm kiếm cho "BUGS"
2026-04-27
05:17

GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh "Spud" và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5. Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể. Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên "Expert-SWE." Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos 77.8% chưa được phát hành của Anthropic. Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn. DeepSeek V4 được đánh giá là "theo kịp với tuyến đầu nhưng không dẫn đầu," định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng "Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao," và bình luận rằng "Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó." Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo "chi phí cho mỗi tác vụ" thay vì "chi phí cho mỗi token." Giá của GPT-5.5 gấp đôi so với GPT-5.4 input $5, output per million tokens, nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.
Xem thêm
08:33

Anthropic Ra Mắt /ultrareview Cho Claude Code: Đánh Giá Mã Trên Đám Mây Từ Nhiều Tác Nhân

Tin tức Gate, ngày 23 tháng 4 — Anthropic đã giới thiệu /ultrareview (research preview), một tính năng đánh giá mã nhiều tác nhân dựa trên đám mây cho Claude Code. Người dùng có thể gõ /ultrareview trong CLI để khởi chạy một nhóm tác nhân đánh giá trong một sandbox từ xa, nơi chúng làm việc song song để xem xét sự khác biệt giữa nhánh hiện tại và nhánh mặc định bao gồm các thay đổi chưa được commit, hoặc đánh giá trực tiếp các GitHub PR bằng cách cung cấp số PR. Toàn bộ quy trình không cần tài nguyên cục bộ và thường mất từ 5 đến 10 phút, với kết quả được trả về phiên dưới dạng thông báo. Điểm khác biệt quan trọng so với công cụ cục bộ /review nằm ở cơ chế xác minh: mỗi phát hiện được tái tạo và xác nhận độc lập bởi một tác nhân riêng, tập trung vào các lỗi thực sự thay vì các gợi ý về phong cách mã. Anthropic định vị hai công cụ cho các giai đoạn phát triển khác nhau — /review để nhận phản hồi nhanh khi đang lập trình, và /ultrareview để đánh giá sâu các thay đổi quan trọng chẳng hạn như xác thực hoặc di chuyển dữ liệu trước khi gộp. Về giá cả, /ultrareview tính thêm phí theo mức sử dụng và không tiêu thụ phần sử dụng đã bao gồm trong gói. Người dùng Pro và Max mỗi người có 3 lượt sử dụng miễn phí trước ngày 5 tháng 5 một lần, không gia hạn, sau đó mỗi lần đánh giá có giá xấp xỉ to tùy thuộc vào quy mô thay đổi. Người dùng Team và Enterprise không có hạn mức miễn phí. Tính năng này yêu cầu xác thực tài khoản Claude.ai và không khả dụng cho Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, hoặc các tổ chức có bật tính năng không lưu trữ dữ liệu ở mức bằng 0.
Xem thêm
05:31
2

Pi Network Ra Mắt Tính Năng Smart Contract Đầu Tiên Trên Testnet, Cho Phép Thanh Toán Theo Gói

Pi Network đã ra mắt tính năng Smart Contract đầu tiên trên Testnet, cho phép người dùng thiết lập thanh toán tự động theo gói trong khi vẫn giữ quyền kiểm soát đối với quỹ của mình. Điều này đánh dấu bước chuyển hướng sang tiện ích hệ sinh thái và tạo nền tảng cho khả năng triển khai trên mainnet.
Xem thêm
PI6,3%
08:34

Quỹ Ethereum Phát hiện 100 đặc vụ Triều Tiên xâm nhập vào các công ty Web3

Chương trình ETH Rangers của Quỹ Ethereum đã tiết lộ một mối đe dọa an ninh lớn từ các phần tử Triều Tiên xâm nhập vào các công ty Web3. Cuộc điều tra phát hiện khoảng 100 đặc vụ, gắn cờ 53 dự án và thu hồi hơn 5,8 triệu USD. Quỹ kêu gọi cải thiện quy trình tuyển dụng và hợp tác toàn cầu để tăng cường an ninh.
Xem thêm
ETH-1,89%