● Next INpact Télécom 📅 08/04/2026 à 17:53

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances

Géopolitique 👤 Sébastien Gavois

🏷️ Tags : chine llm anthropic chatgpt openai rte

[Tuto] Utiliser des IA génératives en local et influence du GPU sur les performances Tout ça pour… ça ? Illustration : Flock Sébastien Gavois Le 08 avril à 15h53 Installer des grands modèles de langage sur un ordinateur, c’est facile. Les utiliser via un chatbot aussi, à condition d’avoir suffisamment de puissance et de mémoire disponibles. Voici un tuto pour en profiter chez vous en local, avec un rapide comparatif de performances entre un serveur avec 24 cœurs CPU et un autre avec un GPU. Les gains sont énormes. Une erreur ? Les intelligences artificielles génératives, on les connaît principalement via ChatGPT, Claude et autres Le Chat. C’est-à-dire via les chatbots proposés en ligne par les géants du secteur que sont OpenAI, Anthropic et le français Mistral. Utiliser une IA générative en ligne, c’est accepter d’envoyer ses données… Derrière, tournent de grands modèles de langage (LLM) avec, pêle-mêle, GPT, Claude Opus/Sonnet/Haiku, Mistral Large/Small, etc. Les requêtes sont envoyées en ligne, l’inférence se fait sur les serveurs des entreprises qui ont développé les LLMs et la réponse est ensuite retournée à votre machine. Dans ce genre de cas, il faut accepter le fait que vos données sortent de votre ordinateur et se retrouvent en ligne, sur les serveurs d’autres sociétés. Ces données peuvent aussi servir à entrainer et/ou améliorer des modèles. En résumé, pour la confidentialité, on repassera. Il existe depuis longtemps une alternative : utiliser des IA génératives en local. …mais c’est aussi possible en local, sans connexion Internet Il est possible de les faire tourner sur des CPU seulement, mais avoir en plus un GPU permet de grandement accélérer les calculs. #Nextquick : pourquoi les GPU des cartes graphiques sont-ils aussi bons pour l’IA ? #Nextquick Une simple requête à ChatGPT, c’est déjà des centaines de milliards de calculs Nous avons déjà détaillé dans un Nextquick pourquoi les cartes graphiques sont autrement plus performantes que les CPU dans ce genre de situation. La réponse tient en un mot : matrice. Pour rappel, une simple requête à ChatGPT et c’est déjà des centaines de milliards de calculs pour avoir une réponse. Quand il s’agit de faire tourner des IA génératives en local, un autre paramètre à considérer est la quantité de mémoire disponible. En effet, il faut charger les poids et paramètres du modèle en mémoire vive… et cela commence rapidement à chiffrer quand on parle de milliards de paramètres, voire des dizaines ou des centaines de milliards de paramètres. Soutenez un journalisme indépendant, libre de ton, sans pub et sans reproche. Accédez en illimité aux articles Profitez d'un média expert et unique Intégrez la communauté et prenez part aux débats Partagez des articles premium à vos contacts Abonnez-vous La suite de cet article est réservée à nos abonnés Soutenez un journalisme indépendant, expert et sans pub. Abonnez-vous sur next.ink/subs Signaler un commentaire Voulez-vous vraiment signaler ce commentaire ? Non Oui

🔗 Lire l'article original 👁️ 5 lectures

← Retour