Le développeur chinois d’intelligence artificielle, DeepSeek, a affirmé avoir dépensé 294.000 dollars pour entraîner son modèle R1, un montant bien inférieur aux sommes avancées par ses rivaux américains, selon un article scientifique publié le 17 septembre dans la revue Nature.
DeepSeek, basée à Hangzhou, a dévoilé pour la première fois une estimation de ses coûts, et devrait relancer le débat sur la place de la Chine dans la course mondiale à l’IA.
Le lancement en janvier 2025 de ses systèmes à bas coût avait suscité un vent de panique sur les marchés technologiques. En effet, les investisseurs craignent que ces modèles ne menacent la domination des géants occidentaux, comme Nvidia.
Lire aussi : Avec son IA DeepSeek, la Chine remet en question la domination technologique américaine
Depuis, la société DeepSeek et son fondateur Liang Wenfeng s’étaient faits discrets, hormis lors des mises à jour de produits. L’article de la revue Nature, cosigné par Liang Wenfeng, a souligné que le modèle R1, spécialisé dans le raisonnement, a demandé 512 puces Nvidia H800 et 80 heures de calcul.
À titre de comparaison, Sam Altman, patron d’OpenAI, avait déclaré en 2023 que l’entraînement de modèles « fondamentaux » coûtait « bien plus » de 100 millions de dollars, sans plus de détails.
Les coûts de formation d’un grand modèle de langage (LLM) concernent les dépenses liées à l’utilisation massive, sur plusieurs semaines ou mois, de grappes de processeurs graphiques capables de traiter d’immenses volumes de texte et de code.
Des doutes venus des Etats-Unis
Certains acteurs américains remettent en question les affirmations de DeepSeek. Les H800 évoqués par DeepSeek seraient des versions bridées, conçues par Nvidia pour le marché chinois après les restrictions américaines de 2022 sur l’exportation des plus puissantes H100 et A100.
En juin, des responsables américains avaient indiqué à l’agence de presse Reuters que DeepSeek disposait malgré tout de « volumes importants » de H100, obtenus après l’entrée en vigueur de ces contrôles. Nvidia avait alors affirmé que l’entreprise utilisait légalement des H800.
Dans un document annexe à l’article scientifique, DeepSeek reconnaît pour la première fois posséder aussi des puces A100, utilisées lors de phases préparatoires avec des modèles plus petits. Par la suite, l’entraînement du modèle R1 a été effectué intégralement sur le cluster de H800.
Reuters a indiqué que DeepSeek avait su attirer des talents d’élite en Chine notamment grâce à son accès rare à une infrastructure de supercalcul basée sur des A100.