● Journal du Net 📅 16/04/2026 à 12:51

L'IA ne lit pas vos graphiques et il est temps de corriger ça

Data Science 👤 Kiran Matty

L'IA d'entreprise reste aveugle à une part importante des données non textuelles. Le passage au RAG multimodal et à la recherche hybride devient essentiel pour des réponses fiables et complètes Si l’IA d’entreprise donne l’illusion de tout voir, en réalité, elle passe à côté de l’essentiel. Derrière la promesse d’un accès instantané à l’ensemble des connaissances internes, une limite structurelle persiste. La majorité des données stratégiques échappe encore aux systèmes actuels. Tableaux de bord financiers, schémas d’architecture, captures de tickets support, diagrammes opérationnels… tout ce qui ne se présente pas sous forme de texte reste largement ignoré. Autrement dit, l’IA d’entreprise continue de raisonner comme si la connaissance d’une organisation se résumait à des paragraphes. Un biais qui, à mesure que les usages se généralisent, devient de plus en plus difficile à soutenir. Le RAG a tenu ses promesses, et ses limites Le RAG (Retrieval-Augmented Generation) a été l’une des innovations les plus pragmatiques de ces dernières années. Plutôt que de se fier aux connaissances figées d’un modèle entraîné sur des données périmées, on lui soumet dynamiquement les bons documents au bon moment. Les hallucinations reculent. Les réponses s’ancrent dans des faits vérifiables. Les LLM deviennent enfin opérationnels dans des contextes professionnels réels. Mais cette architecture repose sur un angle mort fondamental : elle suppose que la connaissance d’entreprise est essentiellement textuelle. Or ce n’est pas le cas. Un rapport d’audit, c’est autant des graphiques que des phrases. Un runbook technique, c’est souvent une suite de captures d’écran annotées. Une analyse de marché, c’est des courbes avant d’être des conclusions. Le RAG classique ingère le texte, passe à côté du reste et répond donc à côté de la réalité. La recherche hybride n’est pas un détail d’implémentation Face à ce constat, deux évolutions s’imposent simultanément. La première, c’est le passage au RAG multimodal : des modèles d’embedding capables de projeter textes, images et tableaux dans un espace vectoriel commun, pour que la recherche d’information traverse les frontières de format. La seconde, trop souvent négligée, c’est la recherche hybride. La recherche purement vectorielle est puissante pour capturer la proximité sémantique. Elle comprend qu’une « voiture » et un « véhicule » parlent de la même chose. Mais elle échoue là où la recherche lexicale excelle : retrouver un numéro de contrat exact, un acronyme métier, un nom de produit spécifique. Aucune des deux approches ne gagne seule. Les combiner n’est pas un luxe d’architecte perfectionniste, mais une condition minimale pour qu’un système RAG soit réellement fiable dans un environnement professionnel. Une architecture, pas une addition de briques C’est là que le débat technique devient un débat stratégique. Assembler un pipeline RAG multimodal et hybride ne relève pas de la simple intégration. Cela oblige à repenser l’ensemble de la chaîne, de l’ingestion à la génération. Comment normaliser des contenus hétérogènes à l’entrée ? Comment fusionner des scores de pertinence qui ne parlent pas le même langage ? Comment transmettre un contexte mixte à un modèle génératif sans que la cohérence se perde en chemin ? Des frameworks comme LlamaIndex ou LangChain progressent vite sur ces questions. Des modèles comme GPT-4o ou Gemini rendent l’interprétation conjointe texte-image enfin crédible en production. Mais la vraie prochaine étape, celle qui fera la différence entre un assistant IA fonctionnel et un système véritablement fiable, sera le re-ranking multimodal : cette couche de reclassement qui évalue les résultats récupérés dans leur cohérence d’ensemble, avant de les soumettre au générateur. En somme, le RAG multimodal et la recherche hybride ne sont pas des optimisations marginales. Ils sont la réponse à une question que l’industrie a trop longtemps éludée : à quoi sert une IA qui ne comprend qu’une fraction de ce qu’on lui demande d’analyser ? Les organisations qui prennent ce virage aujourd’hui ne construisent pas seulement de meilleurs chatbots. Elles posent les fondations d’une IA qui raisonne enfin sur la totalité de ce qu’elles savent.

🔗 Lire l'article original 👁️ 4 lectures

← Retour