DeepSeek a publié des versions d’aperçu de DeepSeek-V4-Pro et DeepSeek-V4-Flash le 24 avril 2026, deux modèles open-weight avec des fenêtres de contexte d’un million de tokens et des prix nettement inférieurs à des alternatives occidentales comparables. Le modèle V4-Pro coûte 1,74 $ par million de tokens d’entrée et 3,48 $ par million de tokens de sortie — environ 1/20e du prix de Claude Opus 4.7 et 98 % de moins que GPT-5.5 Pro, selon les spécifications officielles de l’entreprise.

Architecture du modèle et échelle

DeepSeek-V4-Pro présente 1,6 billion de paramètres au total, ce qui en fait le plus grand modèle open-source du marché des LLM à ce jour. Cependant, seuls 49 milliards de paramètres sont activés par passe d’inférence, en utilisant ce que DeepSeek appelle l’approche Mixture-of-Experts, affinée depuis V3. Cette conception permet au modèle complet de rester en sommeil pendant que seules des portions pertinentes s’activent pour toute requête donnée, réduisant les coûts de calcul tout en conservant la capacité de connaissance.

DeepSeek-V4-Flash fonctionne à une échelle plus réduite avec 284 milliards de paramètres au total et 13 milliards de paramètres actifs. D’après les benchmarks de DeepSeek, il « atteint des performances de raisonnement comparables à la version Pro lorsqu’on lui donne un budget de réflexion plus important ».

Les deux modèles prennent en charge un million de tokens de contexte comme fonctionnalité standard — environ 750 000 mots, ou à peu près l’intégralité de la trilogie « Le Seigneur des Anneaux » plus du texte supplémentaire.

Innovation technique : mécanismes d’attention à grande échelle

DeepSeek a résolu le problème d’échelle computationnelle inhérent au traitement sur long contexte en inventant deux nouveaux types d’attention, comme détaillé dans l’article technique de l’entreprise disponible sur GitHub.

Les mécanismes d’attention standard de l’IA font face à un problème d’échelle brutal : chaque fois que la longueur de contexte double, le coût de calcul augmente d’environ quatre fois. La solution de DeepSeek implique deux approches complémentaires :

Compressed Sparse Attention (Attention clairsemée compressée) fonctionne en deux étapes. Elle compresse d’abord des groupes de tokens — par exemple, chaque groupe de 4 tokens — en une seule entrée. Ensuite, au lieu de s’intéresser à toutes les entrées compressées, elle utilise un « Lightning Indexer » pour ne sélectionner que les résultats les plus pertinents pour toute requête donnée. Cela réduit la portée de l’attention du modèle d’un million de tokens à un ensemble beaucoup plus réduit de chunks importants.

Heavily Compressed Attention (Attention fortement compressée) adopte une approche plus radicale, en faisant s’effondrer chaque 128 tokens en une seule entrée sans sélection clairsemée. Bien que cela fasse perdre des détails fins, cela fournit une vue globale extrêmement peu coûteuse. Les deux types d’attention fonctionnent sur des couches alternées, permettant au modèle de conserver à la fois le niveau de détail et la vue d’ensemble.

Le résultat : V4-Pro utilise 27 % du calcul que son prédécesseur (V3.2) exigeait. Le KV cache — la mémoire nécessaire pour suivre le contexte — tombe à 10 % de V3.2. V4-Flash pousse l’efficacité encore plus loin : 10 % de calcul et 7 % de mémoire par rapport à V3.2.

Performances aux benchmarks et positionnement concurrentiel

DeepSeek a publié des comparaisons de benchmarks complètes contre GPT-5.4 et Gemini-3.1-Pro, y compris des domaines où V4-Pro est en retrait sur ses concurrents. Sur les tâches de raisonnement, le raisonnement de V4-Pro accuse un retard d’environ trois à six mois par rapport à GPT-5.4 et Gemini-3.1-Pro, selon le rapport technique de DeepSeek.

Où V4-Pro mène :

Codeforces (programmation compétitive) : V4-Pro a obtenu 3 206, ce qui le place autour de la 23e position parmi les participants humains aux concours réels
Apex Shortlist (problèmes de mathématiques et STEM sélectionnés) : taux de réussite de 90,2 % contre 85,9 % pour Opus 4.6 et 78,1 % pour GPT-5.4
SWE-Verified (résolution d’issue GitHub) : 80,6 %, en correspondance avec Claude Opus 4.6

Où V4-Pro est en retrait :

MMLU-Pro (multitâche) : Gemini-3.1-Pro à 91,0 % contre V4-Pro à 87,5 %
GPQA Diamond (connaissances d’expert) : Gemini à 94,3 contre V4-Pro à 90,1
Humanity’s Last Exam (niveau master) : Gemini-3.1-Pro à 44,4 % contre V4-Pro à 37,7 %

Sur les tâches à long contexte, V4-Pro mène parmi les modèles open-source et bat Gemini-3.1-Pro sur CorpusQA (simulant une analyse réelle de documents sur un million de tokens), mais perd face à Claude Opus 4.6 sur MRCR, qui mesure la récupération d’informations spécifiques enfouies profondément dans un long texte.

Capacités agentiques et de codage

V4-Pro peut fonctionner avec Claude Code, OpenCode et d’autres outils de codage IA. D’après l’enquête interne de DeepSeek auprès de 85 développeurs ayant utilisé V4-Pro comme agent de codage principal, 52 % ont dit qu’il était prêt à devenir leur modèle par défaut, 39 % ont penché vers « oui », et moins de 9 % ont dit « non ». Les tests internes de DeepSeek ont indiqué que V4-Pro surpasse Claude Sonnet et se rapproche de Claude Opus 4.5 sur les tâches de codage agentique.

Artificial Analysis a classé V4-Pro en première position parmi tous les modèles open-weight sur GDPval-AA, un benchmark testant un travail de connaissance économiquement précieux à travers des tâches liées à la finance, au droit et à la recherche. V4-Pro-Max a obtenu 1 554 Elo, devant GLM-5.1 (1 535) et MiniMax’s M2.7 (1 514). Claude Opus 4.6 obtient 1 619 sur le même benchmark.

V4 introduit une « réflexion entrelacée » qui conserve toute la chaîne de pensée au fil des appels d’outils. Dans les modèles précédents, lorsqu’un agent effectuait plusieurs appels d’outils — par exemple, rechercher sur le web, exécuter du code, puis rechercher à nouveau — le contexte de raisonnement du modèle était vidé entre les tours. V4 maintient la continuité du raisonnement entre les étapes, empêchant la perte de contexte dans des flux de travail automatisés complexes.

Paysage concurrentiel et contexte des prix

Le lancement de V4 arrive dans un contexte d’activité significative dans le domaine de l’IA. Anthropic a expédié Claude Opus 4.7 le 16 avril 2026. OpenAI a lancé GPT-5.5 le 23 avril 2026, avec GPT-5.5 Pro au prix de $30 par million de tokens d’entrée et $180 par million de tokens de sortie. GPT-5.5 bat V4-Pro sur Terminal Bench 2.0 (82,7 % contre 70,0%), qui teste des flux de travail complexes d’agents en ligne de commande.

Xiaomi a sorti MiMo V2.5 Pro le 22 avril 2026, offrant des capacités multimodales complètes (image, audio, vidéo) à $1 en entrée et $3 en sortie par million de tokens. Tencent a sorti Hy3 le même jour que GPT-5.5.

Pour donner du contexte sur les prix : le PDG de Cline, Saoud Rizwan, a noté que si Uber avait utilisé DeepSeek au lieu de Claude, son budget IA 2026 — apparemment suffisant pour quatre mois d’utilisation — aurait duré sept ans.

Déploiement et disponibilité

Les deux modèles V4-Pro et V4-Flash sont sous licence MIT et disponibles sur Hugging Face. Pour l’instant, les modèles sont uniquement textuels ; DeepSeek a déclaré qu’il travaille sur des capacités multimodales. Les deux modèles peuvent être exécutés gratuitement sur du matériel local ou personnalisés selon les besoins de l’entreprise.

Les endpoints existants deepseek-chat et deepseek-reasoner de DeepSeek routent déjà vers V4-Flash en mode non-thinking et thinking respectivement. Les anciens endpoints deepseek-chat et deepseek-reasoner seront retirés le 24 juillet 2026.

DeepSeek a partiellement entraîné V4 sur des puces Huawei Ascend, en contournant les restrictions d’exportation américaines. La société a déclaré qu’une fois que 950 nouveaux supernodes se mettront en ligne plus tard en 2026, le prix déjà bas du modèle Pro baissera encore.

Implications pratiques

Pour les entreprises, la structure de tarification pourrait faire évoluer les calculs coût-bénéfice. Un modèle qui mène des benchmarks open-source à 1,74 $ par million de tokens d’entrée rend le traitement à grande échelle de documents, la revue juridique et les pipelines de génération de code considérablement moins chers que six mois auparavant. Le contexte d’un million de tokens permet de traiter des bases de code entières ou des dépôts réglementaires en une seule requête plutôt que de les découper sur plusieurs appels.

Pour les développeurs et les créateurs indépendants, V4-Flash est la considération principale. À 0,14 $ en entrée et 0,28 $ en sortie par million de tokens, il est moins cher que des modèles considérés comme des options « budget » il y a un an, tout en gérant la plupart des tâches que la version Pro prend en charge.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

AprDaydream

· Il y a 4h

J'espère que l'officiel fournira un mécanisme de journal d'action/relecture auditable, sinon il sera difficile de tenir pour responsable en cas de problème, surtout pour les comptes d'actifs gérés automatiquement.

Voir l'originalRépondre0

PaperHandsPro

· Il y a 4h

La « compréhension de l'intention » dans les applications réelles est le véritable défi, espérons qu'il n'y aura plus d'embarras où, lorsque vous souhaitez réserver un billet d'avion, il modifie votre CV à la place.

Voir l'originalRépondre0

Half-SectionedSucculent

· Il y a 4h

Un peu d'attente, et un peu de peur : pouvoir cliquer avec la souris équivaut à pouvoir faire beaucoup de choses que seul un « clic humain » peut réaliser, la gestion des risques et la lutte contre la fraude doivent être améliorées.

Voir l'originalRépondre0

ACalmnessWithAHintOfPomelo

· Il y a 4h

Cette vague aura également un impact sur le Web3, si l'automatisation des opérations en chaîne, le processus de signature et l'interaction avec le portefeuille pouvaient être réalisés de manière transparente, la forme du produit changerait.

Voir l'originalRépondre0

StarsInTheGlassDome

· Il y a 4h

API et les prix ne sont pas encore prioritaires, regardons d'abord s'il peut résister aux pop-ups, aux multi-fenêtres et aux fluctuations du réseau dans un environnement de bureau complexe.

Voir l'originalRépondre0

GateUser-b665e41c

· Il y a 4h

On a l'impression que l'évolution va de « savoir parler et écrire » à « savoir faire et livrer », la prochaine étape consiste à lui offrir une meilleure mémoire et une gestion des tâches améliorée.

Voir l'originalRépondre0

LintCollector

· Il y a 4h

Si cela pouvait vraiment s'interconnecter entre différentes applications : rechercher des informations dans le navigateur → traiter dans Excel → créer la présentation dans PowerPoint → envoyer par email, alors ce serait une boucle complète de processus de travail.

Voir l'originalRépondre0

DegenWithNotebook

· Il y a 4h

Enfin, une opération native sur le bureau ? Il va vraiment devoir devenir un « stagiaire numérique ».

Voir l'originalRépondre0