Kiến trúc DeepSeek V4 được xác minh: trúng 3/4 dự đoán, vắng mặt mô-đun Engram

Tin cổng thông tin, ngày 24 tháng 4 — DeepSeek đã phát hành hôm nay thẻ mô hình V4, xác nhận các dự đoán kiến trúc trước đó được đưa ra thông qua phân tích thư viện kernel TileKernels được phát hành ngày hôm qua (April 23). Theo giám sát của Beating, ba thành phần cốt lõi đã được xác nhận: mHC (Manifold-Constrained Hyper-Connections) thay thế HyperConnection nguyên bản của ByteDance, kiến trúc MoE với định tuyến chuyên gia Top-k, và lưu trữ trọng số trộn độ chính xác FP4+FP8. Mô-đun bộ nhớ có điều kiện Engram dự đoán đã không xuất hiện trong thẻ mô hình.

Thẻ mô hình tiết lộ các thành phần mới không được đề cập trong TileKernels: cơ chế chú ý lai (CSA + HCA) thúc đẩy các cải tiến hiệu quả ngữ cảnh dài của V4, giảm FLOPs suy luận chỉ còn 27% so với mức của V3.2 ở cửa sổ ngữ cảnh 1M và bộ nhớ đệm KV xuống 10%. Việc huấn luyện hiện sử dụng bộ tối ưu hóa Muon.

Việc xác minh cho thấy các triển khai kernel cấp sản xuất có thể tiết lộ kiến trúc mô hình bên trong trước khi các thông số kỹ thuật chính thức được công bố.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Xiaomi Tiết Lộ Chi Tiết Huấn Luyện MiMo-V2-Pro: Tham Số Mô Hình 1T, Triển Khai Hàng Nghìn GPU

Tin tức Cổng, ngày 24 tháng 4 — Trưởng nhóm mô hình ngôn ngữ lớn của Xiaomi, Luo Fuli, đã tiết lộ trong một cuộc phỏng vấn chuyên sâu rằng mô hình MiMo-V2-Pro có tổng cộng 1 nghìn tỷ tham số và để huấn luyện cần hàng nghìn GPU. Cô cho biết quy mô 1T là ngưỡng tối thiểu để đạt hiệu năng tiến gần tới Claude Opus 4.6 và giành vé vào cửa cạnh tranh cho giai đoạn tiếp theo của các tác nhân AI

GateNews1phút trước

DeepSeek V4 Đạt Điểm Hoàn Hảo Trên Putnam-2025, Hòa Với Axiom Trong Suy Luận Toán Học Chính Thức

Tin tức từ Gate, ngày 24 tháng 4 — DeepSeek V4 đã công bố kết quả từ các bài đánh giá suy luận toán học chính thức, đạt điểm tuyệt đối 120/120 trên Putnam-2025, hòa với Axiom ở vị trí số 1. Trong chế độ thực dụng sử dụng LeanExplore và lấy mẫu bị ràng buộc, V4-Flash-Max đạt 81.00 trên

GateNews9phút trước

Dùng AI nào khiến thể hiện thân phận và địa vị đáng ngưỡng mộ nhất? Nghiên cứu tiết lộ thu nhập người dùng của Claude cao hơn hẳn so với các đối thủ, Meta AI xếp cuối

Cuộc khảo sát của Epoch AI cho thấy người dùng Claude chủ yếu thuộc nhóm có thu nhập cao, 80% có thu nhập hằng năm trên 100.000 USD; Meta AI có phân phối thu nhập rộng nhất, 36,5% ở mức trên 100.000, tỷ lệ người thu nhập thấp chiếm cao nhất; giá của Claude tăng và áp dụng tính phí theo từng gói, chi phí có thể tăng lên, trong khi Meta có mức vào dễ hơn. Trong tương lai, dùng AI nào có thể trở thành nhãn nhận diện danh tính ngầm.

ChainNewsAbmedia14phút trước

V4-Pro Đạt Tỷ Lệ Vượt Kiểm Tra Viết Mã 67% Trong Bài Test Tự Dùng Nội Bộ, Tiệm Cận Hiệu Năng của Opus 4.5

Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm

GateNews28phút trước

Vương quốc Anh xem xét AI của Anthropic để củng cố an ninh mạng ngân hàng

Vương quốc Anh đang khám phá một bước đi lớn trong an ninh mạng tài chính bằng cách hợp tác với công ty AI Anthropic. Các cuộc thảo luận ban đầu cho thấy chính phủ có thể triển khai mô hình Claude Mythos tiên tiến của Anthropic trên các ngân hàng và tổ chức tài chính. Động thái này nhằm cải thiện khả năng phòng thủ trước các mối đe dọa mạng lưới tấn công

CryptometerIo33phút trước

Văn phòng Sở hữu trí tuệ của Trung Quốc bổ sung AI, chất bán dẫn và giao diện não–máy tính vào chương trình bảo hộ nhanh

Tin cổng, ngày 24 tháng 4 — Cục Sở hữu Trí tuệ Quốc gia Trung Quốc đã công bố vào ngày 24 tháng 4 rằng họ sẽ thiết lập cơ chế bảo hộ toàn diện quyền sở hữu trí tuệ cho các công nghệ mới nổi thông qua cải cách thể chế, dịch vụ được nâng cao và mở rộng ứng dụng. Cơ quan này sẽ

GateNews40phút trước
Bình luận
0/400
Không có bình luận