DeepSeek continues to ignite the rise of AI competitions, emerging as a force of innovation in China

世链财经_

2025-01-04 02:21:32

GPT15,08%

DeepSeek est à nouveau en feu.

Récemment, la start-up chinoise de l’IA, DeepSeek, a publié son nouveau modèle de langage DeepSeek-V3 de nouvelle génération et a annoncé simultanément sa mise en open source. Dans plusieurs tests de référence, les résultats de V3 dépassent les modèles open source populaires et sont à égalité avec les meilleurs modèles propriétaires au monde.

Plus important encore, le coût de formation de V3 est extrêmement bas, seulement un vingtième de celui de GPT-4o; le prix de vente est également bas, d’environ un dixième de celui de GPT-4o. Cependant, il ne prend actuellement pas en charge les entrées et sorties multimodales.

DeepSeek est une entreprise de gestion quantitative de la filiale de Fantasia, créée en juillet 2023.

DeepSeek, qui est surnommé l’exemple d’efficacité et de bas prix dans le domaine de l’IA, a ouvert une nouvelle voie pour la technologie et le développement de l’intelligence artificielle actuels, et a contribué à la puissance chinoise dans les compétitions d’IA.

V3 non seulement a eu un effet sensationnel dans le domaine de l’intelligence artificielle, mais aussi a suscité des discussions animées sur le marché financier en raison de sa société mère, une entreprise de fonds quantitatifs bien connue.

Selon les rapports, Xiaomi est en train de construire un cluster de milliers de cartes GPU, et Lei Jun a personnellement recruté Luo Fuli, l’un des développeurs clés de DeepSeek-V2, pour un salaire annuel de millions de yuans. Elle est surnommée “la génie adolescente de l’IA”.

Le ‘Violence Esthétique’ de DeepSeek

Plusieurs tests pratiques ont montré que V3 surpassait les modèles de grande taille actuellement populaires à l’international, tels que Llama 3.1-405B, Claude-3.5-Sonnet et GPT-4o, en ce qui concerne les tests mathématiques (MATH 500) et AIME 2024. En ce qui concerne les compétences en programmation (benchmark Codeforces), il dépasse les grands modèles étrangers d’environ 30 points. En ce qui concerne le génie logiciel (SWE-bench Verified) et les questions-réponses de connaissances, il est légèrement inférieur à Claude-3.5-Sonnet.

Par conséquent, le document technique de DeepSeek se vante fièrement: “L’évaluation globale montre que DeepSeek-V3-Base est actuellement le modèle de base open source le plus puissant disponible, en particulier en ce qui concerne le code et les mathématiques. Sa version de chat surpasse également les autres modèles open source, et atteint des performances comparables aux modèles fermés leaders tels que GPT-4o et Claude-3.5-Sonnet dans une série de tests de référence standard et ouverts.”

Plus important encore, cette réalisation a été obtenue à un coût de formation extrêmement bas.

DeepSeek disclosed in its 53-page technical paper: “Our pre-training phase was completed in less than two months, costing 2664K GPU hours. Combined with 119K GPU hours for context length expansion and 5K GPU hours for post-training, the total training cost of DeepSeek-V3 is only 2.788M GPU hours. Assuming the rental cost of H800 GPU is $2 per GPU hour, our total training cost is only 5.57 million dollars.”

Le PDG d’Anthropic, Dario Amodei, a révélé que le coût de formation du modèle GPT-4o est d’environ 100 millions de dollars. Et il coûte seulement 760 000 dollars pour former un Llama 2 de 7B.

Cela signifie que le coût de formation de DeepSeek-V3 n’est que le dixième ou le douzième de celui des modèles de performance équivalente. Cela a choqué l’ensemble de l’IA.

Selon les rapports, le GPT-5, qui est encore en cours de développement, a déjà subi au moins deux cycles de formation, chacun prenant plusieurs mois, et le coût de calcul d’un seul cycle est proche de 5 milliards de dollars. Un an et demi plus tard, le GPT-5 n’est toujours pas apparu. Cela signifie que le coût de formation des nouveaux grands modèles généraux a dépassé les dix milliards de dollars, voire plus. xAI, une filiale de Musk, vient de lever 6 milliards de dollars, et l’une des dépenses importantes est de doubler la taille du centre de données Colossus et d’atteindre 200 000 GPU.

Selon cette trajectoire de formation, les coûts de formation des grands modèles d’IA augmenteront à 10 milliards de dollars, voire plus, au cours des trois prochaines années. C’est dans ce contexte que le monde de l’IA remet en question la loi de mise à l’échelle depuis un certain temps.

GPT-5 difficult delivery, OpenAI has turned to another development path: reasoning models. And soon produced amazing o1 reasoning model, and just released o3 reasoning model. The excellent performance of o3 has made some experts exclaim that there are no obstacles on the way to AGI.

Les start-ups d’intelligence artificielle sont fortement inspirées et suivent de près. Récemment, Li Kaifu, fondateur de Zero One, qui vient de revenir d’une visite de la Silicon Valley, a déclaré que l’on pensait auparavant que la préformation était suffisante, mais un an plus tard (après l’apparition de 01), on a découvert que la postformation était tout aussi importante. Il a révélé que de nombreuses sociétés d’IA se développent dans le domaine des modèles de raisonnement, et qu’il y aura dans 5 mois de nombreuses capacités similaires au modèle 01 dans différentes sociétés de modèles, y compris Zero One, qui se précipitent vers la direction 01.

Cependant, l’apparition de DeepSeek-V3 offre de nouvelles possibilités. En moins de temps, avec une efficacité accrue et des coûts réduits, il contribue au choix de développement des modèles de langage universels pour atteindre des niveaux similaires, en offrant une version chinoise.

Les nouveaux changements se sont déjà produits

En fait, le 6 mai 2024, DeepSeek a publié le modèle MoE open source DeepSeek-V2, suscitant une vague de chaleur dans le domaine mondial de l’IA en raison de sa haute performance. Le prix de son interface API est fixé de manière abrupte par rapport à des produits similaires, à 1 yuan pour chaque million de jetons en entrée et 2 yuan en sortie (32K contexte), soit à peine un centième du GPT-4-Turbo.

L’entrée du ‘boucher de prix’ a contraint les grands modèles de Zhìpǔ AI, ByteDance, Aliyun, Baidu et Tencent Cloud à réduire leurs prix. De plus, Tencent et Baidu ont annoncé la gratuité de plusieurs de leurs grands modèles. Bien que certains qualifient DeepSeek-V2 de ‘Pinduoduo de l’IA’, cette comparaison n’est pas tout à fait appropriée car les deux n’ont presque rien en commun.

Le prix de l’API DeepSeek-V3 est augmenté à 2 yuans / M tokens en entrée et à 8 yuans / M tokens en sortie (après une période de promotion de prix de 45 jours), bien que cela soit considérablement augmenté par rapport à V2, cela ne correspond qu’à 1/53 des frais de Claude-3.5-Sonnet, ce dernier facturant 3 $ pour chaque million de tokens en entrée et 15 $ pour chaque million de tokens en sortie.

Selon les interviews récentes des professionnels de l’IA menées par les journalistes, l’apparition de DeepSeek-V3 a fourni une nouvelle inspiration à l’industrie.

D’une part, il existe plusieurs possibilités de développement pour la recherche et le développement de grands modèles.

ChatGPT adopte une approche de grande taille de paramètres, de calcul et d’investissement, ce qui exige une puissance de calcul et des fonds extrêmement élevés, une consommation de ressources que la plupart des entreprises ne peuvent pas soutenir. Même des entreprises comme OpenAI et Anthropic, qui ont des financements relativement abondants, sont confrontées à des difficultés de rentabilité commerciale.

Le modèle de raisonnement est une autre voie. Les réalisations de o1 et o3 prouvent que cette voie est également praticable. Cependant, elle repose également sur des coûts de puissance de calcul et financiers relativement élevés, en particulier la puissance de calcul.

DeepSeek-V3 est le troisième chemin. Comparé aux exigences actuelles de formation de grands modèles qui nécessitent souvent l’intégration de milliers de cartes, il a été entraîné avec seulement 2000 GPU A100 pour obtenir des résultats presque équivalents à ceux de GPT-4o et Claude-3.5-Sonnet, ce qui est admirable.

Un ingénieur chinois travaillant dans la recherche en IA dans la Silicon Valley a déclaré à un journaliste de 21st Century Business Herald qu’il n’exclut pas d’autres choix de parcours, tels que l’architecture MLA de V3, la structure MoESparse combinée aux capacités d’inférence de o3, pourrait créer un nouveau paradigme de grands modèles. Si cela se concrétise, ce sera étonnant.

Deuxièmement, dans la compétition en intelligence artificielle, la Chine ne se contente pas de suivre, mais elle est en train d’augmenter considérablement sa capacité d’innovation.

Lors de la sortie de la V2, la Silicon Valley l’a en fait qualifiée de “force mystérieuse de l’Est”. Lors d’une interview avec les médias en juillet 2024, le fondateur de DeepSeek, Liang Wenfeng, a déclaré que la Silicon Valley avait l’habitude de considérer les entreprises d’IA chinoises comme des suiveurs. Cependant, lorsque une entreprise chinoise rejoint le jeu en tant que contributeur innovant et donne des performances exceptionnelles, ils sont très surpris.

Liang Wenfeng estime que plus d’investissements ne garantissent pas nécessairement plus d’innovations, sinon les grands fabricants pourraient monopoliser toutes les innovations. La recherche et l’innovation technologique resteront toujours la première priorité de DeepSeek. Il convient de noter que, selon les estimations des experts de l’industrie, DeepSeek ne perd pas d’argent sur V2 et V3.

V3 a reçu des éloges de la part d’un groupe de célèbres experts en IA de la Silicon Valley. Jia Yangqing, fondateur de Lepton AI et ancien vice-président d’Alibaba, a déclaré que DeepSeek était une expression de sagesse et de pragmatisme : en utilisant des ressources de calcul et humaines limitées, les meilleurs résultats sont obtenus grâce à une recherche intelligente. C’est une évaluation assez juste.

Coïncidence. Unitree Technology a récemment publié la dernière vidéo de produit de chien robot Unitree B2-W : Thomas full spin, side flip, saut et virage à 360°, volée de 2,8 mètres, et peut même porter un homme adulte pour marcher régulièrement. Au cours des derniers jours, le parc de discussion technologique a été rempli d’acclamations pour cette entreprise chinoise de robotique de pointe, certains commentant que ses compétences sont suffisantes pour « accrocher » Boston Dynamics, la société de robotique la plus avancée aujourd’hui. La semaine dernière, elle a également déclenché une vague de « concept technologique Unitree » sur le marché des actions A.

Troisièmement, l’innovation n’a jamais été unidimensionnelle ou unidirectionnelle, et l’innovation disruptive de l’IA est en train de devenir possible.

Le développement de ChatGPT par OpenAI est vraiment impressionnant, il ouvre une nouvelle vague d’intelligence artificielle. Cependant, OpenAI n’est pas un dieu, il rencontre également des obstacles dans son développement, des difficultés de financement et des hésitations dans le choix de sa direction.

Au cours des deux ou trois dernières années, une opinion populaire dans le domaine de l’IA est que si les entreprises de la Silicon Valley sont bonnes pour passer de 0 à 1, nous sommes bons pour passer de 1 à 10, car la Chine a un vaste marché d’application. Cependant, selon Liang Wenfeng, nous sommes toujours dans une période d’explosion de l’innovation technologique en IA, et non dans une période d’explosion des applications.

Du point de vue de la rationalité, il faut admettre que nous avons encore un grand écart avec des sociétés avancées en IA telles que OpenAI, Anthropic, DeepMind. Par exemple, même le V3, qui représente le niveau le plus avancé des grands modèles propriétaires, a des performances similaires à GPT-4o, qui était le niveau technologique il y a sept mois. Pendant ces quelques mois, OpenAI a déjà lancé de nouvelles “mutations” telles que o1 et o3. De plus, la plupart des autres produits de modèles ont un écart encore plus important lorsqu’ils sont mis dans une perspective internationale multilingue et multimodale.

Mais ce qui rend cette vague d’intelligence artificielle encore plus excitante, c’est son pouvoir révolutionnaire qui dépasse même celui d’Internet dans la transformation de l’économie traditionnelle. Comme l’a dit Liang Wenfeng, l’ajustement et la mise à niveau de la structure industrielle chinoise dépendront davantage de l’innovation technologique de base. Dans les domaines des semi-conducteurs, des grands modèles, etc., il existe encore de nombreuses opportunités jamais vues auparavant, attendant les entreprises chinoises. Ces entreprises qui apportent des produits ou des modèles de solutions innovants et perturbateurs dans le domaine de l’IA pourraient bien être les prochaines grandes entreprises.

L’ingénieur chinois de la Silicon Valley susmentionné a déclaré avec émotion que même les plus grandes entreprises n’osent pas s’arrêter et se reposer sur leurs lauriers.

Il y a cinq ans, qui aurait cru qu’Intel ferait l’objet d’une rumeur d’acquisition ? Aujourd’hui, ne regardez pas Nvidia en plein essor et les GPU en pénurie, mais si le calendrier d’utilisation commerciale à grande échelle des puces quantiques est considérablement raccourci, ou si la V3 ne dépend plus de Vanka Integration pour la formation et la recherche et le développement, et qu’elle continue à s’en tenir à la voie de développement d’origine, alors la soi-disant « bulle Nvidia » éclatant plus tôt que prévu est également tout à fait possible.

（Source de l’article : 21st Century Business Herald）

Source: Oriental wealth website

Auteur: 21st Century Economic Report

Voir l'original

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire