● Next INpact Télécom
📅 18/03/2026 à 17:13
Mistral Small 4, GPT‑5.4 mini et nano : deux approches pour les « petits » modèles
Géopolitique
👤 Sébastien Gavois
Mistral Small 4, GPT‑5.4 mini et nano : deux approches pour les « petits » modèles Et si on distille une mixture ? Illustration : Flock Sébastien Gavois Le 18 mars à 17h13 Pour réduire la taille de son modèle GPT-5.4 et lancer des versions mini et nano, OpenAI utilise la distillation. Chez Mistral, l’approche n’est pas la même : le français passe par une « mixture » d’experts. Deux approches pour un même but : des modèles plus rapides et moins coûteux. Une erreur ? Cette semaine, Mistral a annoncé son nouveau modèle Small 4. C’est, selon l’entreprise française, son « premier modèle à unifier les fonctionnalités de nos modèles phares : Magistral pour le raisonnement, Pixtral pour le multimodal et Devstral pour le code, en un seul modèle polyvalent ». Il est proposé en open source sous licence Apache 2.0, et l’entreprise en profite pour rejoindre la NVIDIA Nemotron Coalition. Économie Pour Jensen Huang, la demande en puces IA va encore doubler d’ici 2027 Économie Mardi 17 mars 2026 à 17h29 17/03/2026 17h29 2 Mistral Small 4 : 4 « experts » pour chaque token, sur 128 disponibles Au niveau de l’architecture, Small 4 utilise une Mixture of Experts (MoE). Cette technique existe depuis longtemps et se base sur l’idée de « diviser pour régner ». Dans cette approche, « le modèle est composé de multiples modèles individuels appelés « experts », chacun se spécialisant dans un aspect des données. Le modèle inclut également une fonction de « gating » qui détermine quel expert ou combinaison d’experts consulter pour une entrée donnée », explique Orange. Le modèle de base Small intègre 128 « experts », mais seulement 4 sont interrogés pour chaque token. Le modèle dispose au total de 119 milliards de paramètres, mais « seulement » 6 milliards sont actifs (8 milliards avec les couches d’intégration et de sortie) pour chaque token lors de l’inférence. Soutenez un journalisme indépendant, libre de ton, sans pub et sans reproche. Accédez en illimité aux articles Profitez d'un média expert et unique Intégrez la communauté et prenez part aux débats Partagez des articles premium à vos contacts Abonnez-vous La suite de cet article est réservée à nos abonnés Soutenez un journalisme indépendant, expert et sans pub. Abonnez-vous sur next.ink/subs pamputt Premium Modifié le 18/03/2026 à 17h35 Voir les réponses Message 1 Historique Aller au commentaire enfant Signaler Bloquer cet utilisateur Intéressant, je me suis dit que j'allais tester le modèle de Mistral sur ma machine, mais au prix de DGX B200, je vais devoir choisir entre l'IA et une belle maison Sébastien Gavois Équipe Aujourd'hui à 17h37 En réponse à Message 1.1 Signaler Bloquer cet utilisateur Ho quand même 558,79… euros ça va non ? Ho Wait SebGF Premium Aujourd'hui à 17h41 En réponse à Message 1.2 Signaler Bloquer cet utilisateur je vais devoir choisir entre l'IA et une belle maisonOu un 5m² à Paris ? Signaler un commentaire Voulez-vous vraiment signaler ce commentaire ? Non Oui Mistral Small 4 : 4 « experts » pour chaque token, sur 128 disponibles GPT‑5.4 se décline en versions mini et nano Deux approches : distillation vs mixture d’experts Commentaires 3
🔗 Lire l'article original
👁️ 1 lecture