DeepSeek đã phát hành các phiên bản preview của DeepSeek-V4-Pro và DeepSeek-V4-Flash vào ngày 24 tháng 4 năm 2026, cả hai đều là các mô hình mã nguồn mở (open-weight) với cửa sổ ngữ cảnh một triệu token và mức giá thấp đáng kể so với các lựa chọn tương đương ở phương Tây. Mô hình V4-Pro có giá $1.74 cho mỗi một triệu token đầu vào và $3.48 cho mỗi một triệu token đầu ra—xấp xỉ 1/20 giá của Claude Opus 4.7 và thấp hơn 98% so với GPT-5.5 Pro, theo các thông số kỹ thuật chính thức của công ty.
DeepSeek-V4-Pro có tổng cộng 1.6 nghìn tỷ tham số, khiến nó trở thành mô hình mã nguồn mở (open-source) lớn nhất trên thị trường LLM tính đến thời điểm hiện tại. Tuy nhiên, chỉ có 49 tỷ tham số được kích hoạt cho mỗi lượt suy luận (inference pass), sử dụng cách tiếp cận mà DeepSeek gọi là Mixture-of-Experts, được tinh chỉnh kể từ V3. Thiết kế này cho phép toàn bộ mô hình ở trạng thái “ngủ” trong khi chỉ các lát cắt liên quan được kích hoạt cho bất kỳ yêu cầu nào, giảm chi phí tính toán trong khi vẫn duy trì năng lực kiến thức.
DeepSeek-V4-Flash hoạt động ở quy mô nhỏ hơn với 284 tỷ tham số tổng và 13 tỷ tham số hoạt động (active). Theo các benchmark của DeepSeek, nó “đạt hiệu năng suy luận tương đương phiên bản Pro khi được cấp ngân sách suy nghĩ lớn hơn”.
Cả hai mô hình đều hỗ trợ ngữ cảnh một triệu token như một tính năng tiêu chuẩn—khoảng 750,000 từ, hay xấp xỉ toàn bộ bộ ba “Chúa tể của những chiếc nhẫn” cùng với thêm các văn bản khác.
DeepSeek đã giải quyết bài toán mở rộng tính toán vốn có trong xử lý ngữ cảnh dài bằng cách phát minh hai loại attention mới, như được nêu trong bài báo kỹ thuật của công ty trên GitHub.
Các cơ chế attention chuẩn của AI đối mặt với một vấn đề mở rộng khắc nghiệt: mỗi khi độ dài ngữ cảnh tăng gấp đôi, chi phí tính toán sẽ xấp xỉ tăng gấp bốn. Giải pháp của DeepSeek liên quan đến hai hướng tiếp cận bổ sung:
Compressed Sparse Attention (Attention Thưa Nén) hoạt động theo hai bước. Trước hết, nó nén các nhóm token—ví dụ, cứ 4 token—thành một mục (entry) duy nhất. Sau đó, thay vì chú ý (attend) đến tất cả các mục đã nén, nó dùng một “Lightning Indexer” để chỉ chọn những kết quả phù hợp nhất cho bất kỳ truy vấn nào. Điều này thu hẹp phạm vi attention của mô hình từ một triệu token xuống một tập các đoạn (chunks) quan trọng nhỏ hơn nhiều.
Heavily Compressed Attention (Attention Nén Mạnh) thực hiện một cách tiếp cận quyết liệt hơn, gộp mọi 128 token thành một mục duy nhất mà không có lựa chọn thưa (sparse selection). Mặc dù điều này làm mất chi tiết mịn, nó lại cung cấp một cái nhìn toàn cục cực kỳ rẻ. Hai loại attention này chạy xen kẽ qua các lớp, cho phép mô hình duy trì cả độ chi tiết lẫn cái nhìn tổng quan.
Kết quả: V4-Pro sử dụng 27% lượng tính toán mà phiên bản kế nhiệm của nó (V3.2) cần. KV cache—bộ nhớ cần để theo dõi ngữ cảnh—giảm xuống còn 10% so với V3.2. V4-Flash đẩy hiệu quả hơn nữa: 10% lượng tính toán và 7% lượng bộ nhớ so với V3.2.
DeepSeek đã công bố các so sánh benchmark toàn diện chống lại GPT-5.4 và Gemini-3.1-Pro, bao gồm cả những mảng nơi V4-Pro thua các đối thủ. Ở các tác vụ suy luận, theo báo cáo kỹ thuật của DeepSeek, hiệu năng suy luận của V4-Pro chậm hơn GPT-5.4 và Gemini-3.1-Pro khoảng ba đến sáu tháng.
Nơi V4-Pro dẫn đầu:
Nơi V4-Pro tụt lại:
Ở các tác vụ ngữ cảnh dài, V4-Pro dẫn đầu các mô hình mã nguồn mở và vượt Gemini-3.1-Pro trên CorpusQA (mô phỏng phân tích tài liệu thực tế với một triệu token) nhưng thua Claude Opus 4.6 trên MRCR, bài kiểm tra việc truy xuất thông tin cụ thể bị vùi sâu trong văn bản dài.
V4-Pro có thể chạy trên Claude Code, OpenCode và các công cụ lập trình AI khác. Theo khảo sát nội bộ của DeepSeek đối với 85 nhà phát triển đã sử dụng V4-Pro làm tác nhân lập trình chính, 52% cho biết nó đã sẵn sàng trở thành mô hình mặc định của họ, 39% nghiêng về “có”, và ít hơn 9% nói “không”. Các thử nghiệm nội bộ của DeepSeek cho thấy V4-Pro vượt trội Claude Sonnet và tiến gần Claude Opus 4.5 trong các tác vụ lập trình agentic.
Artificial Analysis xếp V4-Pro đầu tiên trong tất cả các mô hình mã nguồn mở (open-weight) trên GDPval-AA, một benchmark kiểm tra công việc tri thức có giá trị kinh tế trên các tác vụ tài chính, pháp lý và nghiên cứu. V4-Pro-Max đạt 1,554 Elo, vượt GLM-5.1 (1,535) và MiniMax’s M2.7 (1,514). Claude Opus 4.6 đạt 1,619 trên cùng benchmark.
V4 giới thiệu “interleaved thinking” (tư duy xen kẽ), giữ lại toàn bộ chuỗi suy nghĩ qua các lần gọi công cụ (tool calls). Ở các mô hình trước, khi một agent thực hiện nhiều lần gọi công cụ—chẳng hạn như tìm kiếm web, chạy code, rồi lại tìm kiếm—ngữ cảnh suy luận của mô hình bị xóa giữa các vòng. V4 duy trì tính liên tục suy luận qua các bước, ngăn việc mất ngữ cảnh trong các quy trình làm việc tự động phức tạp.
Việc phát hành V4 diễn ra trong bối cảnh có nhiều hoạt động đáng kể trong lĩnh vực AI. Anthropic đã phát hành Claude Opus 4.7 vào ngày 16 tháng 4 năm 2026. GPT-5.5 của OpenAI ra mắt vào ngày 23 tháng 4 năm 2026, với GPT-5.5 Pro được định giá $30 trên mỗi một triệu token đầu vào và $180 trên mỗi một triệu token đầu ra. GPT-5.5 vượt V4-Pro trên Terminal Bench 2.0 (82.7% so với 70.0%), bài kiểm tra các quy trình làm việc phức tạp của agent dòng lệnh.
Xiaomi đã phát hành MiMo V2.5 Pro vào ngày 22 tháng 4 năm 2026, cung cấp đầy đủ khả năng đa phương thức (hình ảnh, âm thanh, video) với $1 input và $3 output trên ( cho mỗi một triệu token. Tencent phát hành Hy3 cùng ngày với GPT-5.5.
Để tham khảo về giá: CEO Cline Saoud Rizwan nhận xét rằng nếu Uber sử dụng DeepSeek thay vì Claude, thì ngân sách AI năm 2026 của họ—được cho là đủ dùng trong bốn tháng—sẽ kéo dài đến bảy năm.
![Pricing comparison and Uber budget analysis])https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29
Cả V4-Pro và V4-Flash đều được cấp phép MIT và có sẵn trên Hugging Face. Hiện tại các mô hình chỉ hỗ trợ dạng text; DeepSeek cho biết họ đang làm việc trên các khả năng đa phương thức. Cả hai mô hình đều có thể chạy miễn phí trên phần cứng cục bộ hoặc được tùy chỉnh dựa trên nhu cầu của công ty.
Các endpoint deepseek-chat và deepseek-reasoner hiện có của DeepSeek đã định tuyến đến V4-Flash tương ứng ở các chế độ không suy nghĩ (non-thinking) và suy nghĩ (thinking). Các endpoint deepseek-chat và deepseek-reasoner cũ sẽ ngừng hoạt động vào ngày 24 tháng 7 năm 2026.
DeepSeek đã huấn luyện V4 một phần trên các chip Huawei Ascend, tránh các hạn chế xuất khẩu của Mỹ. Công ty cho biết rằng khi 950 supernodes mới được đưa vào hoạt động vào cuối năm 2026, giá vốn đã thấp của mô hình Pro sẽ giảm thêm nữa.
Đối với doanh nghiệp, cấu trúc giá có thể khiến việc cân nhắc chi phí–lợi ích thay đổi. Một mô hình dẫn đầu các benchmark mã nguồn mở với $1.74 cho mỗi một triệu token đầu vào khiến các pipeline xử lý tài liệu quy mô lớn, rà soát pháp lý và tạo sinh mã code trở nên rẻ hơn đáng kể so với sáu tháng trước. Ngữ cảnh một triệu token cho phép xử lý toàn bộ kho mã hoặc hồ sơ quy định trong một yêu cầu duy nhất thay vì phải chia thành nhiều đoạn qua nhiều lần gọi.
Đối với nhà phát triển và những người xây dựng độc lập, V4-Flash là cân nhắc chính. Với giá $0.14 cho input và $0.28 cho output trên mỗi một triệu token, nó rẻ hơn các mô hình được coi là lựa chọn ngân sách một năm trước, đồng thời vẫn xử lý được phần lớn các tác vụ mà phiên bản Pro làm được.