Kết quả tìm kiếm cho "EXPERT"
2026-04-27
05:17

GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh "Spud" và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5. Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể. Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên "Expert-SWE." Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos 77.8% chưa được phát hành của Anthropic. Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn. DeepSeek V4 được đánh giá là "theo kịp với tuyến đầu nhưng không dẫn đầu," định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng "Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao," và bình luận rằng "Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó." Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo "chi phí cho mỗi tác vụ" thay vì "chi phí cho mỗi token." Giá của GPT-5.5 gấp đôi so với GPT-5.4 input $5, output per million tokens, nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.
Xem thêm
17:11

Cảnh sát Hồng Kông cảnh báo làn sóng lừa đảo tiền mã hóa gia tăng; Hai phụ nữ mất 1,24 triệu USD trong những tuần gần đây

Tin tức Gate, ngày 25 tháng 4 — Hai phụ nữ ở Hồng Kông đã mất tổng cộng 9,7 triệu HK$ (US$1,24 triệu) cho các kẻ lừa đảo tiền mã hóa trong những tuần gần đây, khiến cảnh sát địa phương đưa ra cảnh báo công khai. Cảnh sát Hồng Kông cho biết có hơn 80 vụ lừa đảo trong chỉ một tuần, với tổng thiệt hại vượt quá HK$80 triệu (U
Xem thêm
10:51

COTI hợp tác với Sayfer để tăng cường bảo mật giao thức quyền riêng tư

Tin tức từ Gate, 24 tháng 4 — COTI đã công bố hợp tác với Sayfer, một công ty bảo mật blockchain được thành lập vào năm 2019, nhằm củng cố khung bảo mật hỗ trợ hệ sinh thái tập trung vào quyền riêng tư của mình. Sayfer sẽ đóng vai trò là cố vấn bảo mật dài hạn cho COTI, hỗ trợ dự án khi nó chuẩn bị để
Xem thêm
COTI-0,72%
1INCH-0,64%
DOT0,57%
XTZ3,44%
09:45

DeepSeek phát hành mã nguồn mở TileKernels, thư viện kernel GPU cho đào tạo và suy luận mô hình lớn

Tin tức cổng, ngày 23 tháng 4 — DeepSeek đã phát hành mã nguồn mở TileKernels theo giấy phép MIT, một thư viện kernel GPU được viết bằng TileLang cho đào tạo và suy luận mô hình ngôn ngữ lớn. TileLang là ngôn ngữ chuyên biệt do nhóm tile-ai phát triển để diễn đạt các kernel GPU hiệu năng cao trong
Xem thêm
07:05

Việc loại bỏ Claude Code của Anthropic gây phản ứng dữ dội từ nhà phát triển; OpenAI nhận được sự ủng hộ từ cộng đồng

Anthropic 将 Claude Code 从 Pro 计划中下架,引发批评,因开发者迁移到 OpenAI;Codex 仍保持免费/基础,GPT-5.4 和 Image 2.0 提升性能,推动大量用户迁移。 Trừu tượng: Bài viết xem xét việc Anthropic loại bỏ Claude Code khỏi gói $20 Pro, điều này khiến các nhà phát triển phản ứng dữ dội, khi họ gọi đó là mức tăng giá ẩn và là rủi ro về độ tin cậy. Bài viết đối chiếu động thái này với chính sách của OpenAI là giữ Codex ở các hạng miễn phí và cơ bản, đồng thời nhấn mạnh hiệu năng mạnh mẽ của các mô hình như GPT-5.4 và ChatGPT Images 2.0, và ghi nhận việc người dùng chuyển nhanh sang OpenAI, trong đó Codex được cho là đã vượt 4 triệu người dùng hoạt động hằng tuần.
Xem thêm
05:01

Digital Asset hợp tác với Ethereum Korea về hợp tác nội dung, đánh dấu MOU đầu tiên cho cộng đồng

Digital Asset ký một MOU với Ethereum Korea để nhận các cập nhật hệ sinh thái Ethereum, các phát triển lộ trình và nội dung từ các chuyên gia, thể hiện sự hợp tác hai chiều nhằm kết nối các nguồn lực Ethereum tại Hàn Quốc với toàn cầu. Tóm tắt: Digital Asset và Ethereum Korea đã ký một MOU để cung cấp cho độc giả của Digital Asset các cập nhật hệ sinh thái Ethereum, các phát triển lộ trình và nội dung từ các chuyên gia. Quan hệ đối tác này nhằm kết nối năng lực tại Hàn Quốc với hệ sinh thái Ethereum toàn cầu thông qua hợp tác hai chiều.
Xem thêm
05:00

Sự thù địch lâu năm của Trump đối với Iran khiến việc thay đổi chế độ khó xảy ra, chuyên gia nói

Tin Cổng, ngày 22 tháng 4 — Brian Clark, giám đốc các khái niệm quốc phòng tại Viện Hudson ở Washington, cho biết Trump từ lâu đã bày tỏ sự coi thường đối với lãnh đạo của Iran và dường như đang tìm kiếm một "sáng kiến nhằm tạo dấu ấn" có thể thay đổi vĩnh viễn Iran, ít nhất là khiến nước này trở thành một quốc gia "trung lập hoặc thậm chí thân thiện hơn với Mỹ"
Xem thêm
06:31

Phụ nữ Hồng Kông mất 7,7 triệu HKD trong crypto sau khi mắc bẫy lừa đảo giao dịch bằng AI

Một phụ nữ ở Hồng Kông đã mất 7,7 triệu HKD cho một kẻ lừa đảo giả làm chuyên gia đầu tư trên Telegram, hứa hẹn lợi nhuận cao với rủi ro thấp. Sau khi chuyển tiền nhiều lần, cô không thể rút tiền của mình, qua đó lộ ra hành vi gian lận. Cảnh sát đã cảnh báo về những vụ lừa đảo như vậy.
Xem thêm
13:01
1

Kết thúc tham vấn Dự thảo Luật Tài chính của Trung Quốc; địa vị pháp lý của tiền tệ kỹ thuật số, quy định đối với tài sản mã hóa hầu như vắng bóng

Dự thảo Luật Tài chính của Trung Quốc nhằm thống nhất các quy định về tài chính, trao cho cơ quan quản lý những quyền điều tra rất rộng. Mặc dù tăng cường giám sát, dự thảo lại thiếu trọng tâm vào các lĩnh vực mới nổi như AI và tiền tệ kỹ thuật số, qua đó nêu bật nhu cầu cân bằng giữa điều tiết và đổi mới.
Xem thêm