1000 : c’est le nombre de messages d’usagers que peut recevoir la RATP chaque heure lors d’incidents sur son réseau. Une quantité astronomique, demandant d’importants efforts de surveillance de la part des agents de supervision. Dans ce flot de réactions, il est en outre parfois difficile de distinguer un message réellement urgent d’un texte sarcastique ainsi que de faire ressortir les informations véritablement utiles préalables à toute intervention.Première classification avec un outil basé sur les modèles MistralPour permettre aux agents de mieux comprendre chaque situation, l’établissement public a franchi une première étape avec la mise en service lors des JO 2024 d’un outil applicatif analysant la base de données de sa messagerie voyageurs (réseaux sociaux, formulaires de réclamation, chatbot).

Basé sur les LLM Large 2 et Large 3 de Mistral AI, cet outil permet de distinguer, pour tel ou tel message, s’il relève davantage de l’exaspération ou de la réelle détresse sur une échelle de 1 à 5. L’interface des résultats est disponible dans la “permanence générale”, une salle de supervision du réseau au-dessus des postes de commandes de ligne. Lorsque de nombreux messages sont catégorisés 5 sur 5 sur la même ligne, sur une période restreinte et provenant d’utilisateurs différents, un second score pouvant aller jusqu’à 10 est alors visible, afin que le personnel chargé des opérations puisse directement savoir à quel point une situation devient critique.RATP L'interface permet d'établir un score de criticité pour l'ensemble du réseau RATP. “L’utilisation de modèles Mistral en production a bien fonctionné, mais nous étions confrontés à un certain nombre de limites, tempère Bastien Perroy, data scientist R&D à la RATP.

Nous ne savons pas quelles données d’entraînement ont servi pour que le modèle ait un concept de détresse et même de réseau de métro à Paris. Ce n’est pas entièrement sobre d’un point de vue environnemental et d’un point de vue éthique, nous ne pouvons pas savoir s’il y a des biais sur certaines situations et populations.”Petit modèle de 600 millions de paramètresAfin de se conformer à ces exigences, la RATP a ainsi développé un petit modèle de raisonnement, en partenariat avec la start-up française Pleias. Cette dernière construit des modèles de langage open source relativement petits – celui mis au point avec la RATP ne comporte que 600 millions de paramètres – et particulièrement pertinents pour des usages spécifiques.

Le groupe s’est notamment appuyé sur l’un des corpus basés sur des données issues de Wikipédia, afin d’être certain de disposer des droits pour entraîner son modèle. “Nous avons pris nos données en situation de crise et généré des données synthétiques, poursuit Bastien Perroy. Nous ne voulions pas utiliser nos données historiques pour entraîner directement un modèle, afin d’avoir un bon contrôle sur les données à caractère personnel.” 1,7 million de données ont ainsi été générées à l’aide des modèles open source Gemma de Google fine-tunés. La RATP continue de travailler avec des outils basés sur Mistral AI pour des tâches d’interprétation généralistes, comme la génération d’un résumé de situation sur le réseau toutes les dix minutes ou l’analyse croisée d’une importante sélection de messages.Le modèle génère des traces de raisonnement en plusieurs étapes pour émettre une classification binaire, à savoir s’il relève de la détresse ou non. “Nous avons mis sous contrôle notre base de données, avons demandé à des voyageurs de la noter pour reconstituer des schémas permettant de dire que tel message est de détresse.” L’entraînement, achevé en février, a été réalisé sur le supercalculateur Jean-Zay, grâce à un partenariat entre Pleias et l’opérateur de calcul intensif GENCI.

À l’issue du processus, l’agent est libre de prendre la décision par lui-même et de s’opposer au résultat fourni par le modèle.Déployé chez ScalewayLa RATP déploie désormais progressivement son modèle de raisonnement sur l’infrastructure cloud de Scaleway. “Nous tenions à réaliser une mise en production dans un contexte souverain, vu que la base de pré-entraînement est française, le laboratoire était français et l’infrastructure de calcul haute performance aussi”, précise Bastien Perroy. Ce faisant, l’établissement public n’entend pas obligatoirement faire gagner du temps aux agents, mais plutôt de les laisser en contrôle sur le flux plutôt que de passer à côté de certains messages. “Typiquement, nous redoutons l’instant où les voyageurs décident d’ouvrir les portes de navettes automatiques et d’aller sur les voies, illustre le data scientist. Nous évitons absolument ces situations dangereuses.

Mais savoir réagir dix minutes plus tôt lors de menaces d’évacuation spontanées sous tunnel, c’est très précieux.” Le groupe prévoit à l’avenir de publier une version open source du modèle.