Les modèles de fondation tabulaires émergent en alternative au ML

Grâce à l’apprentissage en contexte, les modèles transformeurs peuvent se révéler performants dans la classification de données tabulaires. Des chercheurs universitaires allemands l’avaient démontré en 2023, sous la bannière TabPFN. En 2025, ils avaient étendu le périmètre à la régression.

La même année avait émergé un modèle ouvert reprenant l’approche d’apprentissage en contexte : TabICL (ICL pour « in-context learning »). Il élargissait la fenêtre d’apprentissage jusqu’à 500 000 exemples, grâce à une architecture dite « column-then-row ». Dans les grandes lignes, elle implique un pipeline à trois étapes, l’attention étant appliquée successivement sur les colonnes, les lignes, puis le dataset entier.

La v2, sortie en 2026, a accru les performances, notamment en intégrant l'optimiseur Muon et un softmax scalable en fonction des requêtes. Un seul modèle, une seule phase de préentraînement H2O.ai a repris cette architecture pour concevoir son propre modèle de fondation tabulaire : TabH2O. Après l'avoir présenté mi-avril, il a profité du Dell Technologies World (18-21 mai) pour le remettre en avant.

D'un mois à l'autre, le pitch n'a pas changé : avantageux face au ML traditionnel car pas besoin d'ajuster pour chaque dataset. Avantageux aussi face à AutoML car moins de ressources consommées. Et avantageux face à TabICL, de par plusieurs évolutions architecturales.

En premier lieu, classification et régression sont gérées par un même modèle, à deux têtes. Chaque mini-batch de préentraînement a associé des datasets couvrant l'une et l'autre tâche (80 et 20 % respectivement). Ce mécanisme a contribué à réduire la consommation de ressources.

Autre différence qui a également réduit l'empreinte : le préentraînement s'est fait en une seule phase. Avec TabICL, il en avait fallu trois (500 000 étapes, puis 40 000, puis 10 000) pour des questions de stabilité. Des techniques comme la normalisation RMSNorm et le plafonnement des logits ont permis de renforcer cette stabilité, permettant au modèle de travailler dès le départ sur des séquences de la longueur maximale (12 288 lignes avec jusqu'à 100 features).

Au final, environ 6,4 millions de datasets synthétiques auront été nécessaires, alors que TabICL v2 en a utilisé près de 35 millions. « Jusqu'à 500 000 lignes par GPU » Pour créer un dataset synthétique, on échantillonne un DAG aléatoire (densité d'arêtes configurable ; maximum 10 parents par nœud). On assigne à chaque nœud un type de fonction (parmi 8) et on échantillonne, à partir de plusieurs distributions, des valeurs racines qu'on propage dans le DAG.

Sur les gros datasets, TabH2O peut fragmenter le traitement. Il divise les lignes d'entraînement en sous-ensembles et fait la moyenne des prédictions. En combinaison avec le cache clé-valeur et le déchargement des activations, cela permet d'aller jusqu'à 500 000 lignes par GPU.

H2O.ai propose le modèle sur son API, avec les limites suivantes en version gratuite : 2 requêtes par minute 20 requêtes par jour 500 requêtes par mois 100 000 lignes par requêtes 100 colonnes Clustering et remplissage des valeurs manquantes sont des fonctionnalités payantes. Des plug-in Excel et Google Sheets sont disponibles, ainsi qu'une skill pour les agents. La prise en charge de la régression sur les séries chronologiques reste expérimentale.

Et la multimodalité est pour le moment hors champ. Moins gourmand que TabICL, mais moins performant En avril, H2O.ai avait communiqué quelques scores de performance sur le benchmark TALENT (300 datasets). Sans entrer dans les détails de son évaluation, il avait annoncé un score moyen de 2,37 (le plus bas étant le meilleur).

Cela plaçait TabH2O entre TabPFN et TabICL. Il ajoutait qu'il fallait en moyenne : 1,1 seconde pour traiter 1500 lignes 1,4 seconde pour 7000 lignes 2,9 secondes pour 15 000 lignes Environ 20 secondes pour 50 000 lignes Le score communiqué à l'occasion du Dell Technologies World est un peu moins bon (2,55). Mais il en va de même pour les autres modèles.

H2O.ai est à peine plus précis sur sa méthodologie de test (3 tâches, 6 méthodes). Il insiste davantage sur un indicateur censé refléter les usages réels : qu'importe le nombre de colonnes, les prédictions arrivent en moins de 3 secondes pour les datasets jusqu'à 10 000 lignes. Sur les petits datasets, le réseau est le principal producteur de latence.

Pour 1000 lignes et 20 colonnes, il y a 189 ms d'inférence, contre 0,4 s de roundtrip API. Avec la plus grosse configuration testée (500 000 lignes x 50 features), la prédiction arrive en 5 minutes environ avec le traitement fragmenté. Illustration principale générée par IA