Yifan Zhang Công Bố Thông Số Kỹ Thuật Đầy Đủ của DeepSeek V4: 1,6T Tham Số, 384 Chuyên Gia với 6 Kích Hoạt

Tin cổng, ngày 22 tháng 4 — Nghiên cứu sinh Princeton Yifan Zhang đã công bố đầy đủ thông số kỹ thuật của DeepSeek V4 trên X, sau một bản xem trước vào ngày 19 tháng 4. V4 có tổng cộng 1,6 nghìn tỷ tham số và một biến thể nhẹ, V4-Lite, với 285 tỷ tham số.

Mô hình sử dụng cơ chế chú ý DSA2, kết hợp (DeepSeek Sparse Attention) trước đó của DeepSeek từ V3.2 và (Native Sparse Attention) NSA với các phần nhúng đầu có chiều 512, đi kèm (Sparse Multi-Query Attention)MQA( và )Sliding Window Attention(SWA). Lớp MoE (Mixture of Experts) chứa 384 chuyên gia với 6 chuyên gia được kích hoạt cho mỗi lượt truyền xuôi, sử dụng Fused MoE Mega-Kernel. Các kết nối tắt (residual) dùng kiến trúc Hyper-Connections.

Các chi tiết huấn luyện được tiết lộ lần đầu bao gồm việc sử dụng bộ tối ưu Muon (applying Newton-Schulz orthogonalization to momentum updates), cửa sổ ngữ cảnh tiền huấn luyện 32K token và GRPO Group Relative Policy Optimization với hiệu chỉnh KL divergence trong quá trình học tăng cường. Cửa sổ ngữ cảnh cuối cùng mở rộng đến 1 triệu token. Mô hình chỉ xử lý văn bản.

Zhang không làm việc cho DeepSeek, và công ty cũng chưa bình luận chính thức về các thông tin được công bố.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

OpenClaw、Hermes 和 SillyTavern 已确认纳入 GLM Coding Plan 支持

Zhipu AI PM Li 公布 OpenClaw、Hermes 和 SillyTavern 作为受支持的 GLM Coding Plan 项目;其他工具将视具体情况评估。不要共享凭据,也不要将订阅用作 API 访问;如遇错误 1313 请联系支持。 Zhipu AI 的产品经理 Li 宣布,OpenClaw、Hermes 和 SillyTavern 已正式被纳入 GLM Coding Plan 的受支持项目,其他工具将逐案评估。该说明提醒用户不要共享凭据或将订阅用作 API 访问,并建议遇到错误 1313 的用户联系支持。

GateNews19phút trước

CEO Google Cloud: Gemini sẽ cung cấp cho kế hoạch ra mắt Siri cá nhân hóa của Apple vào năm 2026

Tóm tắt: Gemini sẽ cung cấp cho Apple một Siri cá nhân hóa vào năm 2026, được xây dựng trên Mô hình Nền tảng của Apple và sự hợp tác với Gemini; Apple đang thử nghiệm một Siri dạng trò chuyện trên iOS 27/macOS 27, dự kiến ra mắt tại WWDC 2026. Trừu tượng: Gemini của Google Cloud được đặt để cung cấp cho Apple một Siri cá nhân hóa vào năm 2026, kết hợp Gemini với Mô hình Nền tảng của Apple trong một hợp tác trị giá khoảng $1 billion. Apple đang thử nghiệm một Siri được thiết kế lại theo phong cách trò chuyện trong iOS 27/macOS 27, với giao diện Dynamic Island và các tính năng mới, trước khi được công bố tại WWDC 2026 vào ngày 8 tháng 6.

GateNews50phút trước

Thỏa thuận SpaceX $60B Cursor Bơm Lửa Cho Nỗ Lực Xin Ân Xá của SBF khi Lượng $200K Stake của FTX Giờ Được Định Giá 3 Tỷ USD

Tin tức từ Gate, ngày 22 tháng 4 — Hôm nay, SpaceX công bố một quan hệ đối tác lớn với công ty khởi nghiệp AI viết mã Cursor, kèm theo lựa chọn mua lại công ty với giá $60 tỷ. Thỏa thuận này đã đem lại thêm “đạn dược” mới cho Sam Bankman-Fried (SBF), hiện đang bị giam giữ và đang thúc đẩy xin ân xá tổng thống, khi nó cho thấy tiềm năng thu hồi giá trị mà lâu nay anh ta lập luận rằng FTX có thể đã đạt được. Trong tháng 4 năm 2022, Alameda Research, công ty giao dịch được SBF thành lập, đã đầu tư 200.000 USD vào công ty mẹ của Cursor là Anysphere, mua khoảng 5% cổ phần. Khi FTX sụp đổ vào tháng 11 năm 2022, tòa án phá sản đã tiếp quản công ty. Tháng 4 năm 2023, khối tài sản phá sản của FTX đã bán chính khoản 5% cổ phần đó với giá 200.000 USD— đúng bằng số tiền Alameda đã đầu tư. Dựa trên mức định giá tỷ mà SpaceX công bố hôm nay, khoản cổ phần 5% này giờ đây sẽ có giá trị xấp xỉ tỷ, tương đương mức hoàn vốn 15.000x. SBF từ lâu đã khẳng định rằng FTX thực sự không mất khả năng thanh toán và các luật sư phá sản đã hủy hoại giá trị bằng cách thanh lý tài sản quá sớm. Vào tháng 2 năm 2026, anh chia sẻ các dự phóng cho thấy FTX có thể đã đạt giá trị tài sản ròng là tỷ sau khi thu hồi tài sản. Cha mẹ anh cũng tích cực tìm kiếm một lệnh ân xá, xuất hiện trên CNN vào tháng 3 để lập luận rằng khách hàng của FTX đã được hoàn trả đầy đủ. Tuy nhiên, các chủ nợ ghi nhận rằng các khoản hoàn trả dựa trên định giá năm 2022, chứ không phải giá thị trường hiện tại. Tổng thống Trump đã nói rằng ông sẽ không ân xá cho SBF, và các thị trường dự đoán hiện ước tính xác suất có một lệnh ân xá vào năm 2026 chỉ là 5%.

GateNews58phút trước

Cổ phiếu Chegg giảm sụp 99% khi AI làm gián đoạn thị trường công nghệ giáo dục

Tóm tắt: Chegg đã tăng mạnh nhờ nhu cầu giáo dục trực tuyến, sau đó các công cụ AI đã làm gián đoạn mô hình của công ty, dẫn đến sa thải quy mô lớn và sụt giảm xuống dưới $2, trong bối cảnh những thay đổi trên diện rộng do AI thúc đẩy đã ảnh hưởng đến các công ty khai thác crypto và các doanh nghiệp fintech. Tóm tắt: Bài viết này xem xét sự vươn lên của Chegg như một “cưng” của edtech trong thời kỳ đại dịch và sự suy giảm tiếp theo của công ty giữa lúc việc áp dụng nhanh chóng AI tạo sinh, vốn cung cấp câu trả lời nhanh và làm suy yếu đề xuất giá trị của Chegg. Bài viết ghi lại các đợt sa thải năm 2025 và việc cổ phiếu lao dốc hướng tới nguy cơ bị hủy niêm yết, đồng thời đặt trải nghiệm của Chegg trong bối cảnh rộng hơn của sự gián đoạn do AI gây ra, đang làm thay đổi lĩnh vực công nghệ và crypto: các nhà khai thác Bitcoin chuyển sang vận hành AI, và các chiến lược “AI-native” tái định nghĩa năng lực cạnh tranh trong fintech và cả hơn thế nữa.

CryptoFrontier1giờ trước

OpenAI Phát Hành Mô Hình Bộ Lọc Quyền Riêng Tư Mã Nguồn Mở Để Phát Hiện và Che Giấu PII

Tóm tắt: Bộ lọc Quyền riêng tư của OpenAI là một mô hình mã nguồn mở, chạy cục bộ, có khả năng phát hiện và che giấu (redact) thông tin nhận dạng cá nhân (PII) trong văn bản. Mô hình hỗ trợ các ngữ cảnh lớn, xác định nhiều hạng mục PII và được thiết kế cho các quy trình bảo vệ quyền riêng tư như chuẩn bị dữ liệu, lập chỉ mục, ghi nhật ký và điều tiết (moderation). Bộ lọc Quyền riêng tư của OpenAI là một mô hình mã nguồn mở chạy cục bộ (128k-token context), có khả năng phát hiện và che giấu PII trong văn bản, bao quát dữ liệu liên hệ, tài chính và thông tin đăng nhập cho các quy trình bảo vệ quyền riêng tư.

GateNews1giờ trước

OpenAI Lên Kế Hoạch Triển Khai 30GW Năng Lực Điện Toán Vào Năm 2030

OpenAI nhắm tới 30GW điện toán vào năm 2030 để đáp ứng nhu cầu AI ngày càng tăng, với 8GW đã hoàn thành trong mục tiêu 10GW năm 2025. Việc mở rộng này cho thấy chiến lược mở rộng hạ tầng để phát triển và triển khai AI thế hệ tiếp theo. OpenAI dự định đạt 30GW năng lực điện toán vào năm 2030 để đáp ứng nhu cầu AI ngày càng tăng, với việc đã hoàn thành 8GW trong mục tiêu 10GW cho năm 2025. Động thái này phản ánh việc mở rộng chiến lược hạ tầng nhằm hỗ trợ phát triển và triển khai AI thế hệ tiếp theo.

GateNews1giờ trước
Bình luận
0/400
Không có bình luận