● Silicon.fr Télécom 📅 24/04/2026 à 18:18

DeepSeek-V4 ou la perspective sérieuse d'une stack IA chinoise

Géopolitique 👤 Clément Bohic
Illustration
Gare au jour où les modèles DeepSeek fonctionneront mieux sur les puces Huawei… Jensen Huang, patron de NVIDIA, a brandi l’épouvantail il y a quelques jours. En toile de fond, le lancement imminent de la génération DeepSeek-V4. Et les rumeurs à son sujet. En particulier, une compatibilité améliorée avec les NPU Ascend de Huawei. Le jour est arrivé… ou peut-être pas. Ce 24 avril, DeepSeek a en tout cas publié deux modèles V4, en préversion. Huawei affirme que leur entraînement s’est fait en partie sur ses puces, sans en dire davantage. Le gros du travail semble toutefois avoir été réalisé sur du NVIDIA. Y compris, potentiellement, du Blackwell, au mépris des restrictions américaines à l’export. C’est tout du moins ce qu’on prétend à Washington. Des allégations que tend à accréditer l’historique de DeepSeek avec les puces Huawei : l’entraînement du modèle R2 a posé des problèmes, et pas des moindres. Lire aussi : OpenAI accuse DeepSeek de copier ses LLM NVIDIA ne s’inquiète pas tant d’être court-circuité sur l’entraînement que sur l’inférence. En la matière, Huawei clame que ses serveurs Supernode – dotés de puces Ascend – gèrent « pleinement » les modèles DeepSeek-V4, laissant entendre que la prise en charge est meilleure que pour les générations précédentes. Surtout, DeepSeek paraît avoir privilégié le framework CANN de Huawei… aux dépens de CUDA. Là est le cœur du problème pour Jensen Huang : un risque de basculement de l’écosystème logiciel. Il l’estime d’autant plus probable dans le contexte des restrictions américaines à l’export de nombreux GPU NVIDIA vers la Chine. Pékin, dans sa volonté d’autosuffisance, a lui-même apporté sa pierre à l’édifice, bloquant les importations de H200. À long contexte, attention hybride Les modèles DeepSeek-V4-Pro (1600 milliards de paramètres dont 49 milliards actifs) et DeepSeek-V4-Flash (284/13) sont publiés en open-weight (licence MIT). Chacun a trois niveaux de raisonnement et une fenêtre de contexte d’un million de tokens (384 000 en sortie). Ils sont aussi disponibles sur l’API*. Pour la multimodalité, on attendra : ce n’est toujours pas une priorité de DeepSeek, même s’il a déjà sorti des modèles d’OCR. À contexte maximal, DeepSeek-V4-Pro consomme 73 % moins de flops par token que DeepSeek-V3.2, nous annonce-t-on. Et l’empreinte du cache clé-valeur diminue de 90 %. Avec DeepSeek-V4-Flash, les rapports sont respectivement de 90 et 93 %. Ce qui favorise la mise à l’échelle de l’inférence, tout en ouvrant la voie à la mise en œuvre de paradigmes émergents tel l’apprentissage « à chaud ». Entre autres innovations architecturales, DeepSeek a mis en place une attention hybride. Elle entrelace deux mécanismes. L'un, dit CSA (Compressed Sparse Attention), compresse les caches KV par groupes de m tokens et y associe une attention parcimonieuse (sélection des k meilleurs tokens). L'autre, dit HCA (Heavily Compressed Attention), compresse plus agressivement (davantage de tokens par groupe), mais utilise une attention dense. DeepSeek a aussi introduit une technique qui améliore les connexions résiduelles, et par là même la propagation du signal entre les couches. Il a par ailleurs stabilisé l'entraînement et accéléré la convergence en implémentant l'optimiseur Muon - une première sur un modèle MoE de cet ordre de grandeur. Lire aussi : Les modèles de vision gagnent du terrain dans l'OCR Habituer les modèles à travailler en précision réduite Au niveau infrastructure, des ajustements ont été effectués pour limiter la surcharge liée à la parallélisation des experts. Constatant que le système pouvait tolérer une bande passante réduite sans dégradation de la performance d'ensemble, DeepSeek a fusionné les pipelines de communication et de calcul. Pour réduire davantage la bande passante nécessaire, il a planifié les experts par vagues. Une fois la communication achevée au sein d'une vague, le calcul peut commencer immédiatement, sans attendre les autres experts. Pour accélérer l'inférence, le stockage des poids des experts s'est fait en FP4 lors de l'entraînement. Les modèles se sont ainsi adaptés à travailler avec une précision réduite. DeepSeek a intégré plusieurs techniques dont il n'a pas pleinement saisi les fondements. Par exemple, une forme de calcul « anticipé » des index de routage, qui s'avère améliorer la stabilité de l'entraînement. Il a aussi conçu une sandbox « spécial IA agentique ». Exposée via un SDK Python, elle donne accès à 4 modes d'exécution : Appel de fonction (invocations distribuées vers un pool de conteneurs « préchauffés ») Conteneur (chargement EROFS à la demande) MicroVM (base Firecracker) VM complète (base QEMU) Architecture des modèles DeepSeek-V4 * Pour le moment, les endpoints deepseek-trainer et deepseek-chat pointent respectivement sur DeepSeek-V4-Flash avec et sans raisonnement. DeepSeek prévoit de les supprimer en juillet. Illustration principale générée par IA
← Retour