Thinking Machines : Mira Murati dévoile une IA qui parle et écoute en même temps, à quoi ça sert ?

Lecture Zen Résumer l'article Mira Murati et Thinking Machines ont dévoilé TML‑Interaction‑Small, un modèle d'interaction full‑duplex multimodal conçu pour écouter, voir et répondre en continu plutôt que de rivaliser sur le seul raisonnement avec GPT. Architecturé en Mixture‑of‑Experts, le modèle découpe la conversation en micro‑tours de 200 millisecondes et vise une interaction plus fluide en continuant d'écouter pendant qu'il génère ses réponses. La promesse technique s'accompagne d'une stratégie produit mesurée : une preview réservée à des chercheurs, sans code publié pour l'instant, et une ouverture prévue « plus tard cette année ».

Mira Murati et Thinking Machines ont dévoilé TML‑Interaction‑Small, un modèle d'interaction full‑duplex multimodal conçu pour écouter, voir et répondre en continu plutôt que de rivaliser sur le seul raisonnement avec GPT. Architecturé en Mixture‑of‑Experts, le modèle découpe la conversation en micro‑tours de 200 millisecondes et vise une interaction plus fluide en continuant d'écouter pendant qu'il génère ses réponses. La promesse technique s'accompagne d'une stratégie produit mesurée : une preview réservée à des chercheurs, sans code publié pour l'instant, et une ouverture prévue « plus tard cette année ».

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’ Quatorze mois après son départ d’OpenAI, Mira Murati dévoile le premier vrai modèle de Thinking Machines. Il ne s’agit pas d’un concurrent frontal de GPT, mais une IA conçue pour écouter, voir et répondre simultanément. Mira Murati a quitté OpenAI en septembre 2024.

Quatorze mois plus tard, Thinking Machines sort enfin de son silence avec un produit qui ne ressemble pas à un nouveau GPT : l’entreprise dévoile un modèle dit « d’interaction » qui écoute en parlant. Le 11 mai 2026, l’équipe a annoncé une research preview baptisée TML-Interaction-Small. Ce n’est pas un modèle de frontière, pas un concurrent direct de GPT ou Claude ou Gemini sur le raisonnement pur, mais plutôt une tentative de casser un réflexe qu’on a tous fini par intégrer sans s’en rendre compte : phraser nos questions comme des e-mails, attendre que l’IA finisse de parler avant de répondre et accepter cette latence de quelques secondes.

Concrètement, TML-Interaction-Small est un modèle Mixture-of-Experts de 276 milliards de paramètres dont 12 milliards sont actifs à chaque appel. Il découpe la conversation en micro-tours de 200 millisecondes : pendant qu’il génère sa réponse, il continue d’écouter, de voir et d’ajuster. Et votre vie numérique devient sereine Bitdefender Premium Security est une solution de cybersécurité européenne qui vous protège automatiquement contre les pirates et toutes les menaces du web.

Profitez de vos activités en ligne en toute tranquillité Sponsorisé La solution de cybersécurité tout-en-un Le terme technique, c’est full-duplex, ou, pour faire simple, un téléphone qui permet aux deux interlocuteurs de parler en même temps (pas sûr que ça serve à quelque chose, mais c’est comme ça qu’on interagit entre humains). Sur le benchmark FD-bench v1.5, conçu pour mesurer la qualité d’interaction et non l’intelligence brute, le modèle décroche 77,8 points contre 46,8 pour GPT-realtime-2.0 en mode minimal. Sa latence de prise de parole tombe à 0,40 seconde, contre 0,57 pour Gemini-3.1-flash-live et 1,18 pour GPT-realtime-2.0 minimal.

À titre de comparaison, une conversation humaine fluide se cale autour de 200 à 250 millisecondes entre deux tours de parole (ndlr : quand Nicolas Lellouche boit du café, nos tests indépendants ont plutôt mesuré 20 ms entre chaque interaction). Le benchmark en question mesurant la qualité de la réponse // Source : Capture d’écran Numerama Le même benchmark mesurant la latence // Source : Capture d’écran Numerama Thinking Machines a levé 2 milliards de dollars en juillet 2025 à une valorisation de 12 milliards, dans ce qui a été présenté comme le plus gros tour de seed de l’histoire. La société compte une cinquantaine de salariés, dont John Schulman, cofondateur d’OpenAI, et plusieurs anciens cadres de la maison-mère partis dans la foulée de Murati.

C’est leur deuxième sortie publique, après Tinker, une API de fine-tuning lancée en octobre 2025. Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.

Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires. Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.

J’accepte tout Gérer mes choix Deux modèles, deux vitesses L’architecture du modèle de Thinking Machine mise en réalité sur un duo de modèles. Le modèle d’interaction gère le temps réel, la voix, le regard, les interjections. En parallèle, un background model plus lourd s’occupe du raisonnement complexe, des recherches web, des appels d’outils, et fait remonter ses résultats dans la conversation en cours.

En pratique, l’IA peut continuer à discuter pendant qu’elle cherche une information. Encore plus efficace qu’un humain monotâche. Les grands modèles de langage classiques n’ont pas d’horloge interne : ils ne « savent » l’heure que si on la précise.

Sur mes essais personnels, Gemini se plante par exemple systématiquement sur les dates ou les moments de la journée. Selon VentureBeat, le modèle de Thinking Machines peut gérer des instructions du type « rappelle-moi de vérifier la température toutes les 4 minutes ». Pour des cas d’usage en laboratoire, en chaîne de production ou en santé, ce n’est pas un gadget.

Les modèles d’interaction, l’avenir ? Thinking Machines a-t-il présenté l’IA du futur ? L’ingénieur Sean Goedecke, qui a déjà passé l’annonce au crible sur son blog, rappelle que les modèles full-duplex existent déjà : Moshi de Kyutai, Nemotron-VoiceChat de Nvidia, et d’autres tournent depuis plusieurs mois.

La nouveauté de Thinking Machines tient surtout au couplage avec un agent de raisonnement en arrière-plan. Goedecke note d’ailleurs que sur certains benchmarks comme BigBench Audio, le score passe de 76 % à 96 % une fois le background model activé. Sur le marché grand public, le rapport de force ne bouge donc pas du jour au lendemain.

OpenAI domine la distribution, Google pousse Gemini Live sur Android, et Anthropic mise sur autre chose. Thinking Machines ne propose pour l’instant qu’une preview à un cercle restreint de chercheurs, avec une ouverture au public prévue « plus tard cette année », sans date précise. Le code source n’a pas été publié, malgré les engagements initiaux de Murati sur un « composant open source significatif » dans le premier produit de l’entreprise.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube. Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus) En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.

Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies. J’accepte tout Gérer mes choix Pour les développeurs et les chercheurs, c’est donc une piste sérieuse à surveiller, surtout si Thinking Machines tient sa promesse d’ouverture.

Pour le grand public, il faudra attendre l’arrivée effective du modèle dans un produit utilisable. En attendant, la promesse d’un assistant vocal qui ne coupe plus la parole comme un mauvais interviewer est suffisamment concrète pour donner envie d’y croire. Toute l'actu tech en un clin d'œil Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Installer Numerama Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer ! Tout comprendre à La guerre de l’IA Thinking Machines : Mira Murati dévoile une IA qui parle et écoute en même temps, à quoi ça sert ? Anthropic passe un accord avec SpaceX pour augmenter les capacités de Claude C’est la fin de xAI (Grok) : Elon Musk dévoile sa nouvelle stratégie IA ChatGPT Phone : pourquoi on ne croit pas au smartphone OpenAI Le procès Musk contre Altman va être diffusé en direct : comment écouter l’audience sur l’avenir d’OpenAI ?

Crédit photo de la une : Numerama Signaler une erreur dans le texte IA générative LLM (Large Language Model) OpenAI Thinking Machines Business Ne plus voir cette pub Ne plus voir cette pub