DeepSeek đã phát hành các phiên bản preview của DeepSeek-V4-Pro và DeepSeek-V4-Flash vào ngày 24 tháng 4 năm 2026, cả hai đều là các mô hình mã nguồn mở (open-weight) với cửa sổ ngữ cảnh một triệu token và mức giá thấp đáng kể so với các lựa chọn tương đương ở phương Tây. Mô hình V4-Pro có giá $1.74 cho mỗi một triệu token đầu vào và $3.48 cho mỗi một triệu token đầu ra—xấp xỉ 1/20 giá của Claude Opus 4.7 và thấp hơn 98% so với GPT-5.5 Pro, theo các thông số kỹ thuật chính thức của công ty.

Kiến trúc Mô hình và Quy mô

DeepSeek-V4-Pro có tổng cộng 1.6 nghìn tỷ tham số, khiến nó trở thành mô hình mã nguồn mở (open-source) lớn nhất trên thị trường LLM tính đến thời điểm hiện tại. Tuy nhiên, chỉ có 49 tỷ tham số được kích hoạt cho mỗi lượt suy luận (inference pass), sử dụng cách tiếp cận mà DeepSeek gọi là Mixture-of-Experts, được tinh chỉnh kể từ V3. Thiết kế này cho phép toàn bộ mô hình ở trạng thái “ngủ” trong khi chỉ các lát cắt liên quan được kích hoạt cho bất kỳ yêu cầu nào, giảm chi phí tính toán trong khi vẫn duy trì năng lực kiến thức.

DeepSeek-V4-Flash hoạt động ở quy mô nhỏ hơn với 284 tỷ tham số tổng và 13 tỷ tham số hoạt động (active). Theo các benchmark của DeepSeek, nó “đạt hiệu năng suy luận tương đương phiên bản Pro khi được cấp ngân sách suy nghĩ lớn hơn”.

Cả hai mô hình đều hỗ trợ ngữ cảnh một triệu token như một tính năng tiêu chuẩn—khoảng 750,000 từ, hay xấp xỉ toàn bộ bộ ba “Chúa tể của những chiếc nhẫn” cùng với thêm các văn bản khác.

Đổi mới Kỹ thuật: Cơ chế Attention ở Quy mô Lớn

DeepSeek đã giải quyết bài toán mở rộng tính toán vốn có trong xử lý ngữ cảnh dài bằng cách phát minh hai loại attention mới, như được nêu trong bài báo kỹ thuật của công ty trên GitHub.

Các cơ chế attention chuẩn của AI đối mặt với một vấn đề mở rộng khắc nghiệt: mỗi khi độ dài ngữ cảnh tăng gấp đôi, chi phí tính toán sẽ xấp xỉ tăng gấp bốn. Giải pháp của DeepSeek liên quan đến hai hướng tiếp cận bổ sung:

Compressed Sparse Attention (Attention Thưa Nén) hoạt động theo hai bước. Trước hết, nó nén các nhóm token—ví dụ, cứ 4 token—thành một mục (entry) duy nhất. Sau đó, thay vì chú ý (attend) đến tất cả các mục đã nén, nó dùng một “Lightning Indexer” để chỉ chọn những kết quả phù hợp nhất cho bất kỳ truy vấn nào. Điều này thu hẹp phạm vi attention của mô hình từ một triệu token xuống một tập các đoạn (chunks) quan trọng nhỏ hơn nhiều.

Heavily Compressed Attention (Attention Nén Mạnh) thực hiện một cách tiếp cận quyết liệt hơn, gộp mọi 128 token thành một mục duy nhất mà không có lựa chọn thưa (sparse selection). Mặc dù điều này làm mất chi tiết mịn, nó lại cung cấp một cái nhìn toàn cục cực kỳ rẻ. Hai loại attention này chạy xen kẽ qua các lớp, cho phép mô hình duy trì cả độ chi tiết lẫn cái nhìn tổng quan.

Kết quả: V4-Pro sử dụng 27% lượng tính toán mà phiên bản kế nhiệm của nó (V3.2) cần. KV cache—bộ nhớ cần để theo dõi ngữ cảnh—giảm xuống còn 10% so với V3.2. V4-Flash đẩy hiệu quả hơn nữa: 10% lượng tính toán và 7% lượng bộ nhớ so với V3.2.

Hiệu năng Benchmark và Vị thế Cạnh tranh

DeepSeek đã công bố các so sánh benchmark toàn diện chống lại GPT-5.4 và Gemini-3.1-Pro, bao gồm cả những mảng nơi V4-Pro thua các đối thủ. Ở các tác vụ suy luận, theo báo cáo kỹ thuật của DeepSeek, hiệu năng suy luận của V4-Pro chậm hơn GPT-5.4 và Gemini-3.1-Pro khoảng ba đến sáu tháng.

Nơi V4-Pro dẫn đầu:

Codeforces (lập trình cạnh tranh): V4-Pro đạt 3,206 điểm, xếp quanh vị trí thứ 23 trong số các người tham gia thi đấu là con người thực tế
Apex Shortlist (bài toán toán học và STEM được tuyển chọn): tỷ lệ pass 90.2% so với Opus 4.6 là 85.9% và GPT-5.4 là 78.1%
SWE-Verified (xử lý sự cố GitHub): 80.6%, khớp với Claude Opus 4.6

Nơi V4-Pro tụt lại:

MMLU-Pro (đa nhiệm): Gemini-3.1-Pro đạt 91.0% so với V4-Pro là 87.5%
GPQA Diamond (kiến thức chuyên gia): Gemini đạt 94.3 so với V4-Pro là 90.1
Humanity’s Last Exam (trình độ sau đại học): Gemini-3.1-Pro đạt 44.4% so với V4-Pro là 37.7%

Ở các tác vụ ngữ cảnh dài, V4-Pro dẫn đầu các mô hình mã nguồn mở và vượt Gemini-3.1-Pro trên CorpusQA (mô phỏng phân tích tài liệu thực tế với một triệu token) nhưng thua Claude Opus 4.6 trên MRCR, bài kiểm tra việc truy xuất thông tin cụ thể bị vùi sâu trong văn bản dài.

Năng lực Agentic và Lập trình

V4-Pro có thể chạy trên Claude Code, OpenCode và các công cụ lập trình AI khác. Theo khảo sát nội bộ của DeepSeek đối với 85 nhà phát triển đã sử dụng V4-Pro làm tác nhân lập trình chính, 52% cho biết nó đã sẵn sàng trở thành mô hình mặc định của họ, 39% nghiêng về “có”, và ít hơn 9% nói “không”. Các thử nghiệm nội bộ của DeepSeek cho thấy V4-Pro vượt trội Claude Sonnet và tiến gần Claude Opus 4.5 trong các tác vụ lập trình agentic.

Artificial Analysis xếp V4-Pro đầu tiên trong tất cả các mô hình mã nguồn mở (open-weight) trên GDPval-AA, một benchmark kiểm tra công việc tri thức có giá trị kinh tế trên các tác vụ tài chính, pháp lý và nghiên cứu. V4-Pro-Max đạt 1,554 Elo, vượt GLM-5.1 (1,535) và MiniMax’s M2.7 (1,514). Claude Opus 4.6 đạt 1,619 trên cùng benchmark.

V4 giới thiệu “interleaved thinking” (tư duy xen kẽ), giữ lại toàn bộ chuỗi suy nghĩ qua các lần gọi công cụ (tool calls). Ở các mô hình trước, khi một agent thực hiện nhiều lần gọi công cụ—chẳng hạn như tìm kiếm web, chạy code, rồi lại tìm kiếm—ngữ cảnh suy luận của mô hình bị xóa giữa các vòng. V4 duy trì tính liên tục suy luận qua các bước, ngăn việc mất ngữ cảnh trong các quy trình làm việc tự động phức tạp.

Bối cảnh cạnh tranh và ngữ cảnh về giá

Việc phát hành V4 diễn ra trong bối cảnh có nhiều hoạt động đáng kể trong lĩnh vực AI. Anthropic đã phát hành Claude Opus 4.7 vào ngày 16 tháng 4 năm 2026. GPT-5.5 của OpenAI ra mắt vào ngày 23 tháng 4 năm 2026, với GPT-5.5 Pro được định giá $30 trên mỗi một triệu token đầu vào và $180 trên mỗi một triệu token đầu ra. GPT-5.5 vượt V4-Pro trên Terminal Bench 2.0 (82.7% so với 70.0%), bài kiểm tra các quy trình làm việc phức tạp của agent dòng lệnh.

Xiaomi đã phát hành MiMo V2.5 Pro vào ngày 22 tháng 4 năm 2026, cung cấp đầy đủ khả năng đa phương thức (hình ảnh, âm thanh, video) với $1 input và $3 output trên ( cho mỗi một triệu token. Tencent phát hành Hy3 cùng ngày với GPT-5.5.

Để tham khảo về giá: CEO Cline Saoud Rizwan nhận xét rằng nếu Uber sử dụng DeepSeek thay vì Claude, thì ngân sách AI năm 2026 của họ—được cho là đủ dùng trong bốn tháng—sẽ kéo dài đến bảy năm.

![Pricing comparison and Uber budget analysis])https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29

Triển khai và Tính sẵn sàng

Cả V4-Pro và V4-Flash đều được cấp phép MIT và có sẵn trên Hugging Face. Hiện tại các mô hình chỉ hỗ trợ dạng text; DeepSeek cho biết họ đang làm việc trên các khả năng đa phương thức. Cả hai mô hình đều có thể chạy miễn phí trên phần cứng cục bộ hoặc được tùy chỉnh dựa trên nhu cầu của công ty.

Các endpoint deepseek-chat và deepseek-reasoner hiện có của DeepSeek đã định tuyến đến V4-Flash tương ứng ở các chế độ không suy nghĩ (non-thinking) và suy nghĩ (thinking). Các endpoint deepseek-chat và deepseek-reasoner cũ sẽ ngừng hoạt động vào ngày 24 tháng 7 năm 2026.

DeepSeek đã huấn luyện V4 một phần trên các chip Huawei Ascend, tránh các hạn chế xuất khẩu của Mỹ. Công ty cho biết rằng khi 950 supernodes mới được đưa vào hoạt động vào cuối năm 2026, giá vốn đã thấp của mô hình Pro sẽ giảm thêm nữa.

Hàm ý Thực tiễn

Đối với doanh nghiệp, cấu trúc giá có thể khiến việc cân nhắc chi phí–lợi ích thay đổi. Một mô hình dẫn đầu các benchmark mã nguồn mở với $1.74 cho mỗi một triệu token đầu vào khiến các pipeline xử lý tài liệu quy mô lớn, rà soát pháp lý và tạo sinh mã code trở nên rẻ hơn đáng kể so với sáu tháng trước. Ngữ cảnh một triệu token cho phép xử lý toàn bộ kho mã hoặc hồ sơ quy định trong một yêu cầu duy nhất thay vì phải chia thành nhiều đoạn qua nhiều lần gọi.

Đối với nhà phát triển và những người xây dựng độc lập, V4-Flash là cân nhắc chính. Với giá $0.14 cho input và $0.28 cho output trên mỗi một triệu token, nó rẻ hơn các mô hình được coi là lựa chọn ngân sách một năm trước, đồng thời vẫn xử lý được phần lớn các tác vụ mà phiên bản Pro làm được.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

AprDaydream

· 6giờ trước

Hy vọng chính thức cung cấp một cơ chế nhật ký hành động / phát lại có thể kiểm tra được, nếu không sẽ rất khó truy trách nhiệm khi xảy ra vấn đề, đặc biệt là các tài khoản tự động vận hành tài sản.

Xem bản gốcTrả lời0

PaperHandsPro

· 6giờ trước

Trong các ứng dụng thực tế, "hiểu ý định" mới là điểm khó khăn, hy vọng đừng để xảy ra tình cảnh ngượng ngùng như bạn muốn đặt vé máy bay mà nó lại chỉnh sửa hồ sơ của bạn.

Xem bản gốcTrả lời0

Half-SectionedSucculent

· 6giờ trước

Có chút mong đợi, cũng có chút sợ: có thể nhấp chuột đồng nghĩa với việc có thể làm nhiều việc mà “con người nhấp” mới làm được, cần nâng cấp kiểm soát rủi ro và chống gian lận.

Xem bản gốcTrả lời0

ACalmnessWithAHintOfPomelo

· 6giờ trước

Làn sóng này cũng ảnh hưởng đến Web3 đúng không, tự động hóa các thao tác trên chuỗi, quy trình ký, tương tác ví nếu có thể thực hiện một cách liền mạch, hình thái sản phẩm sẽ thay đổi.

Xem bản gốcTrả lời0

StarsInTheGlassDome

· 6giờ trước

API và giá cả đừng vội, trước tiên hãy xem nó có thể chống pop-up, chống đa cửa sổ, chống dao động mạng trong môi trường máy tính để bàn phức tạp hay không.

Xem bản gốcTrả lời0

GateUser-b665e41c

· 6giờ trước

Cảm thấy từ "biết nói biết viết" tiến hóa thành "biết làm và giao hàng", bước tiếp theo là cung cấp cho nó khả năng ghi nhớ và quản lý nhiệm vụ tốt hơn.

Xem bản gốcTrả lời0

LintCollector

· 6giờ trước

Nếu thực sự có thể liên kết qua các ứng dụng: trình duyệt tra cứu tài liệu → Excel xử lý → PPT xuất bản → gửi email, thì đó là chu trình hoàn chỉnh của công việc văn phòng.

Xem bản gốcTrả lời0

DegenWithNotebook

· 6giờ trước

Cuối cùng đã lên giao diện gốc của máy tính để bàn rồi à? Giờ thật sự phải làm "thực tập sinh số" rồi.

Xem bản gốcTrả lời0