● Next INpact Télécom
📅 27/03/2026 à 11:39
TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche
Data Science
👤 Martin Clavey
🏷️ Tags :
llm
TurboQuant veut réduire grandement les besoins en mémoire des IA génératives… et ça marche On en revient toujours à Shannon Illustration : Flock Martin Clavey Le 27 mars à 11h39 Des chercheurs de Google ont publié un ensemble d’algorithmes de quantification, nommé TurboQuant. Ils permettent une compression massive réduisant l’utilisation de la mémoire, notamment pour l’IA générative, alors que le prix de la RAM est dans toutes les têtes. Une erreur ? Le nombre de paramètres et la taille de la fenêtre contextuelle des modèles de langage (LLM) prennent une place de plus en plus importante dans leur utilisation, notamment pour traiter des quantités énormes de documents et leur permettre d’augmenter leur acuité. Mais son utilisation intensive demande une quantité importante de mémoire. L’optimisation de la compression de ces informations devient primordiale. On vous explique le nerf de la guerre : la quantification La quantification vectorielle est une technique déjà utilisée pour cette compression. Mais jusqu’ici, celle-ci créait au fur et à mesure un « surcoût de mémoire ». Google a annoncé ce mardi 24 mars que ses chercheurs avaient justement mis en place une série d’algorithmes de quantification qui « répond de manière optimale » à ce problème. De fait, ils avaient mis en ligne leur article sur la plateforme de prépublication scientifique arXiv dès le 28 avril 2025 et celui-ci était passé assez inaperçu. Dans leurs billets, les chercheurs de Google expliquent que leur article a été accepté pour présentation à la conférence scientifique ICLR qui se déroulera du 23 avril au 27 avril 2026 à Rio. Soutenez un journalisme indépendant, libre de ton, sans pub et sans reproche. Accédez en illimité aux articles Profitez d'un média expert et unique Intégrez la communauté et prenez part aux débats Partagez des articles premium à vos contacts Abonnez-vous La suite de cet article est réservée à nos abonnés Soutenez un journalisme indépendant, expert et sans pub. Abonnez-vous sur next.ink/subs dylem29 Premium Aujourd'hui à 11h54 Message 1 Signaler Bloquer cet utilisateur est-ce-que ça pourrait faire mieux tourner les LLMs sur les smartphone? genre 6 ou 8GB? Signaler un commentaire Voulez-vous vraiment signaler ce commentaire ? Non Oui On vous explique le nerf de la guerre : la quantification Un changement de représentation qui simplifie tout Ajoutez-y une nouvelle approche de quantification Ça marche en vrai Commentaires 1
🔗 Lire l'article original
👁️ 0 lecture