● Journal du Net 📅 03/04/2026 à 14:07

S'attaquer aux données ROT pour favoriser les IA d'entreprise sur mesure

Data Science 👤 Rick Vanover

Entre les exigences réglementaires et les données ROT qui ajoutent du flou, les entreprises doivent faire le tri pour permettre à l'IA de produire des résultats de plus grande qualité. La plupart des entreprises ont rapidement intégré l’IA sous une forme ou une autre. Qu’il s’agisse de créer un compte d’entreprise auprès de l’un des principaux LLMs ou de lancer des projets pilotes sur mesure, l’IA est rapidement en train de devenir un “collaborateur” de confiance. Néanmoins, même si elle peut parfois sembler détenir toutes les réponses, à l’image de n’importe quel collaborateur, l’IA n’est pas omnisciente. Si les entreprises peuvent en tirer des résultats qui paraissent justes au premier abord, ceux-ci sont trop souvent générés à partir de données « brouillonnes », qui en apparence semblent propres mais qui sont pourries de l’intérieur. Même si l’IA peut sembler relever de la magie, elle ne crée pas à partir de rien. Les résultats qu’elle produit dépendent uniquement de sa capacité à accéder à des données valides, non altérées et pertinentes. Si celles-ci sont perdues au milieu d’un océan de données inutiles, l’IA se raccroche à tout ce qui lui semble un tant soit peu lié aux requêtes, générant ainsi des résultats inexacts et présentant même un véritable risque sécuritaire et réglementaire. Toutefois, si les entreprises s’attaquaient à ce problème de manière proactive afin de permettre à l’IA de s’y retrouver parmi toutes ces données, tout en satisfaisant aux exigences en matière de gestion du risque, cela permettrait à la technologie de s’appuyer uniquement sur les données dont elle a besoin, améliorant ainsi la qualité de ses résultats. La qualité de l’IA dépend des données qu’elle « ingère » La plupart des entreprises voient dans l’IA une solution presque magique : il suffirait de poser une question à un LLM pour obtenir, comme par enchantement, une réponse qui semble intelligente et bien documentée. Et c'est là que réside le véritable enjeu : les données elles-mêmes. Il n’existe pas de recette miracle : afin de générer des réponses précises et utiles, l’IA a besoin de s’appuyer sur des données valides, non altérées et, avant tout, pertinentes. C’est précisément pour cette raison que 95 % des projets pilotes d’AI générative échouent encore aujourd’hui. Les entreprises alimentent leurs IA à partir d’un réservoir comprenant un grand nombre de données redondantes, obsolètes ou triviales (ROT). A cela s’ajoute une explosion de la quantité de données générées, un phénomène accentué par l’émergence de l’IA, et dont la croissance est en train d’échapper à tout contrôle. De nos jours, la plupart des organisations ne disposent pas d’une visibilité complète sur l’ensemble de leurs données et permettent aux données ROT de s’accumuler. À présent, alors qu’elles commencent à tirer parti de leur patrimoine de données à l’aide de l’IA, ces données ROT freinent l’intégration et le développement de la technologie en interne. À la différence des LLM et autres solutions d’IA clé en main, qui sont faciles à utiliser et simples à mettre en place avec des garde-fous intégrés, les solutions internes sur mesure nécessitent une approche plus pragmatique. Celles-ci ont souvent du mal à s’y retrouver parmi les règles métier complexes et l’affinement constant nécessaire pour accéder à des données propres et éviter de s’appuyer sur des données ROT. Or ces dernières contribuent à saper les projets pilotes avant même qu’ils aient commencé. En effet, les données ROT génèrent des résultats inexacts ou imprécis. En l’absence de garde-fous précis et stricts érigés autour des données qui alimentent l’IA, les solutions sur mesure finissent inévitablement par s’appuyer sur des données ROT, générant ainsi des résultats lents et incorrects. Il est probable que la plupart des échecs de projets pilotes soient dus non à l’absence des données dont ils ont besoin, mais au fait que l’organisation ne sait pas vers quelles informations orienter l’IA. Malheureusement, les données ROT ont tendance à contaminer celles qui les entourent. Si elles ne sont pas nettoyées, elles ne se contentent pas de mettre à mal les projets pilotes, mais contribuent à l’émergence de préoccupations plus vastes en matière de gestion du risque. Des données pertinentes perdues dans une forêt de données ROT Les données ROT ne disparaissent pas d’elles-mêmes. Trop souvent, elles contaminent les autres sans que personne ne s’en aperçoive. Or, jusqu’à présent, rien de s’est opposé à leur prolifération. En raison du décalage entre les réglementations en matière d’IA à l’échelle internationale, les entreprises peuvent avoir l’impression qu’elles ont une chose de moins à gérer. Toutefois, ce soulagement de court terme a des conséquences à long terme sur la compréhension et la visibilité de leurs données. Sans exigences réglementaires ou de conformité qui les poussent à placer la gouvernance en tête de leurs priorités, les entreprises ont tendance à l’ignorer. Ainsi, 92 % des organisations ne disposent toujours pas d’une visibilité suffisante sur leurs identités d’IA. Cela contribue non seulement à freiner les projets pilotes, mais également à prendre du retard sur les questions de conformité et de gouvernance. En effet, si elles ne savent pas d’où proviennent leurs données, lorsqu’une réglementation mature verra le jour, elles se retrouveront avec un retard à combler. Ce manque de visibilité pourrait également impacter la cybersécurité. Il suffit d’imaginer qu’au lieu de poser des bases solides en renforçant la visibilité et en se débarrassant de ses données ROT, une entreprise accorde à l’IA un accès illimité à l’ensemble de ses données. Cela donnerait non seulement naissance à une IA lente et (probablement) inefficace, mais également à une forme de privilège centralisé qui, s’il venait à tomber entre de mauvaises mains, pourrait servir de vecteur d’attaque imparable. Car si les entreprises commencent à mieux appréhender l’IA, c’est également le cas des attaquants. Dès qu’ils auront perfectionné des méthodes d’attaque contre les outils d’IA, ils pourront s’en servir comme point d’entrée pour accéder à l’ensemble de l’infrastructure, de la même manière que s’ils avaient réussi à pirater des identités dotées de privilèges trop importants. Se débarrasser des données ROT pour favoriser la croissance future Ainsi, plutôt que d’attendre que ces risques liés à la cybersécurité ou à la conformité ne deviennent une réalité, mieux vaut traiter le mal à la racine. Il est essentiel de couper court à ce foisonnement de données ROT avant qu’elles ne deviennent un problème. Les entreprises devraient mettre l’accent sur l’état de leurs données, en exposant et en questionnant celles qui nécessitent d’être nettoyées afin d’améliorer les résultats d’IA, mais également de préserver leur organisation de futurs risques. Une meilleure compréhension des données permet de mettre en place des garde-fous pour les projets d’IA sur mesure, de garantir que les données sur lesquelles la technologie s’appuie soient non seulement pertinentes, mais sécurisées. Cela pourrait permettre de convertir les projets pilotes d’IA d’échecs en réussites. Alors que l’IA est inévitablement rattrapée par les exigences réglementaires et de gouvernance, « l’explicabilité » devient le nouveau terme incontournable. En effet, à moins de maîtriser les tenants et aboutissants de leurs données et de leurs IA, les entreprises auront du mal à expliquer comment fonctionne véritablement la technologie. Franchir ce pas n’a rien d’anodin : l’année passée, 181 zettaoctets de données ont été créés, capturés, copiés et consommés dans le monde entier. Pour améliorer l’accès aux données pertinentes perdues au milieu de la forêt de données ROT, il est temps de faire des coupes claires.

🔗 Lire l'article original 👁️ 3 lectures

← Retour