● Numerama
📅 27/03/2026 à 11:39
Plus besoin d'IRM : la nouvelle IA de Meta sait comment votre cerveau réagit
Cybersécurité
👤 Lisa Imperatrice
Lecture Zen Résumer l'article Meta dévoile TRIBE v2, un modèle open source qui simule les schémas IRMf pour prédire l’activité cérébrale face à des images, des sons et du texte. Son entraînement s’appuie sur plus de 500 heures d’IRMf collectées auprès d’environ 700 participants. Le système généralise en « zero‑shot » à de nouveaux individus, tâches et langues. Meta dévoile TRIBE v2, un modèle open source qui simule les schémas IRMf pour prédire l’activité cérébrale face à des images, des sons et du texte. Son entraînement s’appuie sur plus de 500 heures d’IRMf collectées auprès d’environ 700 participants. Le système généralise en « zero‑shot » à de nouveaux individus, tâches et langues. Recevez tous les soirs un résumé de l’actu importante avec Le Récap’ Le 26 mars 2026, Meta a dévoilé TRIBE v2, un modèle open source capable de prédire « la réaction du cerveau humain à presque tous les sons et images ». Son objectif : reproduire, sans passer par un scanner, les schémas d’activité cérébrale déclenchés par des contenus visuels, sonores ou textuels. Ce n’est pas une simple avancée, mais un changement de dimension pour la « neuro-IA ». Le 26 mars 2026, Meta (Facebook, Instagram) a dévoilé TRIBE v2, un modèle open source capable de prédire « la réaction du cerveau humain à presque tous les sons et images » selon l’entreprise. Concrètement, TRIBE v2 tente de deviner à quoi ressemble l’activité cérébrale lorsqu’une personne voit une image, regarde une scène de film, écoute un son ou lit une phrase. Plutôt que de brancher systématiquement un individu à un IRM, le modèle fait office de « cerveau virtuel » : on lui fournit un stimulus (vidéo, audio, texte), et il simule le schéma d’activation que produirait un cerveau réel dans un scanner. Tribe V2. // Source : Meta Comment prédire la réaction du cerveau ? Pour y parvenir, Meta a d’abord dû construire un gigantesque jeu de données reliant contenus et activité cérébrale. Des centaines de volontaires ont ainsi passé de longues sessions dans un IRM fonctionnel — parfois plusieurs heures — à regarder des vidéos, écouter de la parole ou lire du texte dans différentes langues. À chaque instant, les chercheurs disposent à la fois du stimulus présenté et de la réponse cérébrale correspondante. L’IRM fonctionnel ne capture pas l’activité neuronale cellule par cellule, mais mesure des variations de flux sanguin dans de minuscules volumes appelés « voxels » (l’équivalent 3D des pixels). Le signal est donc indirect, relativement lent et flou — mais suffisant pour identifier quels réseaux cérébraux s’activent. Au total, TRIBE v2 est entraîné sur plus de 500 heures d’enregistrements fMRI, issues de plus de 700 participants. Un volume colossal pour ce type de données, historiquement limité à quelques dizaines de sujets. Meta décrit TRIBE v2 comme une chaîne en trois étapes. D’abord, des encodeurs spécialisés traitent chaque type de contenu. Une vidéo, un son ou un texte brut n’est pas directement exploitable par un modèle fMRI. TRIBE v2 commence donc par faire passer chaque modalité dans un modèle dédié : un modèle de vision pour extraire des représentations d’images et de scènes, un modèle audio pour capter les caractéristiques du son et de la parole, et un modèle de langage pour comprendre le sens des phrases. Ces modèles — issus de la famille des LLM et des architectures multimodales récentes de Meta (V-JEPA, Wav2Vec2-BERT, Llama 3.x) — transforment le flux de pixels ou d’ondes en vecteurs numériques, appelés embeddings. Ces représentations condensent l’essentiel de l’information : les objets présents, les actions en cours, le ton de la voix ou encore le contenu sémantique d’un texte. Meta décrit TRIBE v2 comme une chaîne en trois étapes // Source : Meta Ensuite, un module d’intégration, de type Transformer, aligne ces signaux dans le temps (par exemple, tenir compte du décalage entre un mot entendu et la réponse cérébrale associée) et produit une représentation commune de ce que la personne perçoit à un instant donné. Enfin, une couche de projection traduit cette représentation en activité cérébrale simulée. Concrètement, le modèle prédit l’intensité de la réponse fMRI sur environ 70 000 voxels, bien au-delà des approches classiques limitées à quelques centaines de régions. Résultat : une cartographie beaucoup plus fine des aires sensorielles et associatives. Un changement d’échelle TRIBE v2 s’inscrit dans la continuité de TRIBE v1, présenté en 2025. Là où la première version reposait sur seulement quatre participants, une centaine d’heures de films et un peu plus de mille régions cérébrales, TRIBE v2 change complètement de dimension. TRIBE v1 avait déjà remporté l’Algonauts 2025 brain encoding challenge, une compétition consistant à prédire l’activité cérébrale de sujets exposés à des vidéos. La nouvelle version en reprend les bases, mais avec une échelle sans précédent. Les premiers résultats avancés par Meta, ainsi que des analyses externes, évoquent des gains de précision de l’ordre de 2 à 3×. Surtout, le modèle généralise à de nouveaux individus, tâches et langues sans recalibrage spécifique. C’est ce que les chercheurs appellent la généralisation zero‑shot : la capacité à fonctionner sur des personnes jamais vues auparavant, sans devoir recalibrer le modèle pour chaque individu. Les premiers résultats avancés par Meta // Source : Meta La marque met en avant deux grands cas d’usage, à commencer par la recherche en neurosciences. TRIBE v2 agit comme un simulateur : avant de mobiliser un scanner — coûteux et rare — les chercheurs peuvent tester des hypothèses, explorer des stimuli et affiner leurs protocoles. Le modèle ne remplace pas une étude clinique, mais il permet de mieux cibler les expériences et d’exploiter plus finement les données existantes. D’autant que son code et ses poids sont publiés en open source, facilitant son adoption dans les laboratoires et les startups. Ensuite, le développement de modèles d’IA. TRIBE v2 permet de comparer directement ce que « voit » une IA à ce que traite le cerveau humain. Pour un même film ou un même son, on peut observer si les activations du modèle ressemblent aux activations mesurées en IRM. Si une architecture d’IA produit des patterns proches de ceux du cortex, cela suggère qu’elle organise l’information d’une façon similaire à la nôtre — un indice qu’elle capture des régularités utiles et qu’elle pourrait mieux généraliser ou être plus robuste sur certaines tâches. Toute l'actu tech en un clin d'œil Ajoutez Numerama à votre écran d'accueil et restez connectés au futur ! Installer Numerama Pour ne rien manquer de l’actualité, suivez Numerama sur Google ! Tout savoir sur la maison-mère de Facebook, Meta Moxie Marlinspike (Signal) s’allie à Meta pour « bunkeriser » vos conversations avec l’IA Meta : un agent IA provoque une fuite de données interne C’est la fin du métavers : Meta acte la fin de Horizon Worlds Il est temps d’arrêter d’utiliser Instagram pour vos conversations privées Crédit photo de la une : Numerama / Meta Signaler une erreur dans le texte Ne plus voir cette pub Ne plus voir cette pub Cerveau IA générative Intelligence artificielle Neurosciences
🔗 Lire l'article original
👁️ 0 lecture