DeepSeek a publié des versions d’aperçu de DeepSeek-V4-Pro et DeepSeek-V4-Flash le 24 avril 2026, deux modèles open-weight avec des fenêtres de contexte d’un million de tokens et des prix nettement inférieurs à des alternatives occidentales comparables. Le modèle V4-Pro coûte 1,74 $ par million de tokens d’entrée et 3,48 $ par million de tokens de sortie — environ 1/20e du prix de Claude Opus 4.7 et 98 % de moins que GPT-5.5 Pro, selon les spécifications officielles de l’entreprise.
DeepSeek-V4-Pro présente 1,6 billion de paramètres au total, ce qui en fait le plus grand modèle open-source du marché des LLM à ce jour. Cependant, seuls 49 milliards de paramètres sont activés par passe d’inférence, en utilisant ce que DeepSeek appelle l’approche Mixture-of-Experts, affinée depuis V3. Cette conception permet au modèle complet de rester en sommeil pendant que seules des portions pertinentes s’activent pour toute requête donnée, réduisant les coûts de calcul tout en conservant la capacité de connaissance.
DeepSeek-V4-Flash fonctionne à une échelle plus réduite avec 284 milliards de paramètres au total et 13 milliards de paramètres actifs. D’après les benchmarks de DeepSeek, il « atteint des performances de raisonnement comparables à la version Pro lorsqu’on lui donne un budget de réflexion plus important ».
Les deux modèles prennent en charge un million de tokens de contexte comme fonctionnalité standard — environ 750 000 mots, ou à peu près l’intégralité de la trilogie « Le Seigneur des Anneaux » plus du texte supplémentaire.
DeepSeek a résolu le problème d’échelle computationnelle inhérent au traitement sur long contexte en inventant deux nouveaux types d’attention, comme détaillé dans l’article technique de l’entreprise disponible sur GitHub.
Les mécanismes d’attention standard de l’IA font face à un problème d’échelle brutal : chaque fois que la longueur de contexte double, le coût de calcul augmente d’environ quatre fois. La solution de DeepSeek implique deux approches complémentaires :
Compressed Sparse Attention (Attention clairsemée compressée) fonctionne en deux étapes. Elle compresse d’abord des groupes de tokens — par exemple, chaque groupe de 4 tokens — en une seule entrée. Ensuite, au lieu de s’intéresser à toutes les entrées compressées, elle utilise un « Lightning Indexer » pour ne sélectionner que les résultats les plus pertinents pour toute requête donnée. Cela réduit la portée de l’attention du modèle d’un million de tokens à un ensemble beaucoup plus réduit de chunks importants.
Heavily Compressed Attention (Attention fortement compressée) adopte une approche plus radicale, en faisant s’effondrer chaque 128 tokens en une seule entrée sans sélection clairsemée. Bien que cela fasse perdre des détails fins, cela fournit une vue globale extrêmement peu coûteuse. Les deux types d’attention fonctionnent sur des couches alternées, permettant au modèle de conserver à la fois le niveau de détail et la vue d’ensemble.
Le résultat : V4-Pro utilise 27 % du calcul que son prédécesseur (V3.2) exigeait. Le KV cache — la mémoire nécessaire pour suivre le contexte — tombe à 10 % de V3.2. V4-Flash pousse l’efficacité encore plus loin : 10 % de calcul et 7 % de mémoire par rapport à V3.2.
DeepSeek a publié des comparaisons de benchmarks complètes contre GPT-5.4 et Gemini-3.1-Pro, y compris des domaines où V4-Pro est en retrait sur ses concurrents. Sur les tâches de raisonnement, le raisonnement de V4-Pro accuse un retard d’environ trois à six mois par rapport à GPT-5.4 et Gemini-3.1-Pro, selon le rapport technique de DeepSeek.
Où V4-Pro mène :
Où V4-Pro est en retrait :
Sur les tâches à long contexte, V4-Pro mène parmi les modèles open-source et bat Gemini-3.1-Pro sur CorpusQA (simulant une analyse réelle de documents sur un million de tokens), mais perd face à Claude Opus 4.6 sur MRCR, qui mesure la récupération d’informations spécifiques enfouies profondément dans un long texte.
V4-Pro peut fonctionner avec Claude Code, OpenCode et d’autres outils de codage IA. D’après l’enquête interne de DeepSeek auprès de 85 développeurs ayant utilisé V4-Pro comme agent de codage principal, 52 % ont dit qu’il était prêt à devenir leur modèle par défaut, 39 % ont penché vers « oui », et moins de 9 % ont dit « non ». Les tests internes de DeepSeek ont indiqué que V4-Pro surpasse Claude Sonnet et se rapproche de Claude Opus 4.5 sur les tâches de codage agentique.
Artificial Analysis a classé V4-Pro en première position parmi tous les modèles open-weight sur GDPval-AA, un benchmark testant un travail de connaissance économiquement précieux à travers des tâches liées à la finance, au droit et à la recherche. V4-Pro-Max a obtenu 1 554 Elo, devant GLM-5.1 (1 535) et MiniMax’s M2.7 (1 514). Claude Opus 4.6 obtient 1 619 sur le même benchmark.
V4 introduit une « réflexion entrelacée » qui conserve toute la chaîne de pensée au fil des appels d’outils. Dans les modèles précédents, lorsqu’un agent effectuait plusieurs appels d’outils — par exemple, rechercher sur le web, exécuter du code, puis rechercher à nouveau — le contexte de raisonnement du modèle était vidé entre les tours. V4 maintient la continuité du raisonnement entre les étapes, empêchant la perte de contexte dans des flux de travail automatisés complexes.
Le lancement de V4 arrive dans un contexte d’activité significative dans le domaine de l’IA. Anthropic a expédié Claude Opus 4.7 le 16 avril 2026. OpenAI a lancé GPT-5.5 le 23 avril 2026, avec GPT-5.5 Pro au prix de $30 par million de tokens d’entrée et $180 par million de tokens de sortie. GPT-5.5 bat V4-Pro sur Terminal Bench 2.0 (82,7 % contre 70,0%), qui teste des flux de travail complexes d’agents en ligne de commande.
Xiaomi a sorti MiMo V2.5 Pro le 22 avril 2026, offrant des capacités multimodales complètes (image, audio, vidéo) à $1 en entrée et $3 en sortie par million de tokens. Tencent a sorti Hy3 le même jour que GPT-5.5.
Pour donner du contexte sur les prix : le PDG de Cline, Saoud Rizwan, a noté que si Uber avait utilisé DeepSeek au lieu de Claude, son budget IA 2026 — apparemment suffisant pour quatre mois d’utilisation — aurait duré sept ans.
Les deux modèles V4-Pro et V4-Flash sont sous licence MIT et disponibles sur Hugging Face. Pour l’instant, les modèles sont uniquement textuels ; DeepSeek a déclaré qu’il travaille sur des capacités multimodales. Les deux modèles peuvent être exécutés gratuitement sur du matériel local ou personnalisés selon les besoins de l’entreprise.
Les endpoints existants deepseek-chat et deepseek-reasoner de DeepSeek routent déjà vers V4-Flash en mode non-thinking et thinking respectivement. Les anciens endpoints deepseek-chat et deepseek-reasoner seront retirés le 24 juillet 2026.
DeepSeek a partiellement entraîné V4 sur des puces Huawei Ascend, en contournant les restrictions d’exportation américaines. La société a déclaré qu’une fois que 950 nouveaux supernodes se mettront en ligne plus tard en 2026, le prix déjà bas du modèle Pro baissera encore.
Pour les entreprises, la structure de tarification pourrait faire évoluer les calculs coût-bénéfice. Un modèle qui mène des benchmarks open-source à 1,74 $ par million de tokens d’entrée rend le traitement à grande échelle de documents, la revue juridique et les pipelines de génération de code considérablement moins chers que six mois auparavant. Le contexte d’un million de tokens permet de traiter des bases de code entières ou des dépôts réglementaires en une seule requête plutôt que de les découper sur plusieurs appels.
Pour les développeurs et les créateurs indépendants, V4-Flash est la considération principale. À 0,14 $ en entrée et 0,28 $ en sortie par million de tokens, il est moins cher que des modèles considérés comme des options « budget » il y a un an, tout en gérant la plupart des tâches que la version Pro prend en charge.