Exécuter des programmes au sein des Transformers avec une inférence exponentiellement plus rapide

Hero

#Introduction

Les grands modèles de langage (LLM) ont conquis le monde par leur capacité à comprendre et à générer du texte de manière naturelle. Cependant, derrière les impressionnantes capacités probabilistes de ces modèles se cache une limite bien documentée : les architectures traditionnelles de transformers peinent à effectuer des calculs longs, exacts et déterministes. Bien qu'ils soient théoriquement Turing-complets, l'exécution de millions d'étapes de programmation strictes directement au sein d'un transformer standard a toujours été, dans la pratique, irréalisable en raison des goulots d'étranglement liés aux performances.

Et si nous pouvions remodeler le mécanisme d'attention pour contourner ces limites ? Et si un LLM pouvait fonctionner non plus seulement comme un générateur de texte, mais comme un véritable ordinateur hautement performant ? De récentes découvertes de la part de Percepta ont mis en lumière exactement cela : une nouvelle approche permettant d'exécuter des programmes directement à l'intérieur des transformers, avec une inférence exponentiellement plus rapide. Il ne s'agit pas d'une simple optimisation incrémentale, mais bien d'une réinvention fondamentale de ce qu'un réseau de neurones est capable de traiter nativement.

#Les faits

Les chercheurs de Percepta se sont posé une question fascinante : « Les LLM peuvent-ils être des ordinateurs ? » Pour y répondre, ils se sont attaqués à la cause fondamentale de l'inefficacité des calculs sur de longues séquences. Dans un modèle de transformer standard, le mécanisme d'attention nécessite généralement un balayage complet de toute la séquence précédente pour chaque nouveau token généré. Cela entraîne une complexité temporelle de $O(n)$ par étape, ce qui devient rapidement insoluble lorsque l'on tente d'exécuter une logique complexe ou de résoudre des problèmes mathématiques sur des millions d'étapes.

Pour surmonter cet obstacle, l'équipe a introduit une modification architecturale majeure. En restreignant les têtes de recherche (lookup heads) à une dimension d'exactement 2, ils ont transformé le mécanisme d'attention standard en une requête d'enveloppe convexe en 2D (2D convex-hull query).

Cette transformation géométrique fait passer la complexité temporelle du modèle — lors de la récupération et de la mise à jour de son état — de linéaire ($O(n)$) à logarithmique ($O(\log n)$) par rapport à la longueur de la séquence. Cela accélère exponentiellement le processus d'inférence, permettant au transformer modifié de maintenir une trace en ajout seul ("append-only trace") sur des millions d'étapes sans subir de dégradation catastrophique des performances.

Lors d'une démonstration pratique impressionnante, l'équipe ne s'est pas appuyée sur des outils externes, des interpréteurs de code ou des appels d'API. Ils ont plutôt exécuté un solveur compilé entièrement au sein du transformer pour résoudre le Sudoku d'Arto Inkala — largement reconnu comme la grille de Sudoku la plus difficile au monde. Le modèle y est parvenu en s'appuyant uniquement sur son processus de « réflexion » interne, propulsé par ce nouveau mécanisme d'attention en $O(\log n)$.

#Pourquoi c'est important

Pour vous, développeurs et ingénieurs travaillant avec l'IA, cette avancée résout un point de friction critique : le fossé existant entre la génération probabiliste et l'exécution stricte et déterministe.

Actuellement, lorsque nous souhaitons qu'un LLM effectue des mathématiques précises ou exécute une logique complexe, nous construisons généralement toute une architecture autour de lui. Nous utilisons des agents, des appels de fonctions (function calling) ou des interpréteurs de code externes (comme des bacs à sable Python) pour déléguer les calculs lourds et exacts. Le LLM agit comme un orchestrateur, tandis que l'environnement de calcul traditionnel se charge de l'exécution rigoureuse.

En intégrant la capacité d'exécuter des programmes directement dans les poids du transformer, nous réduisons le besoin de gestion d'état externe et de couches d'orchestration complexes. Le modèle lui-même exécute, par essence, une machine virtuelle (comparable à un interpréteur WebAssembly). Chaque token généré représente l'évolution de l'état de cette machine virtuelle à un instant précis : mise à jour du pointeur d'instruction, gestion de la pile et modification de la mémoire.

L'enjeu est majeur car cela réduit considérablement la latence des opérations déterministes tout en conservant les interfaces en langage naturel qui font la force des LLM. Cela prouve que les réseaux de neurones peuvent combler de manière interne le fossé entre le raisonnement créatif et le calcul rigoureux.

#Implications techniques

Le passage d'une attention en $O(n)$ à une attention en $O(\log n)$ via des requêtes d'enveloppe convexe en 2D a de profondes implications techniques sur la façon dont nous concevons et déployons les systèmes d'IA. Décortiquons ensemble les principaux changements architecturaux et leurs effets :

#1. Mécanismes d'attention géométriques

L'attention standard par produit scalaire (dot-product attention) calcule des scores de compatibilité à travers des espaces en grande dimension, ce qui est extrêmement coûteux en calcul. En projetant les recherches clé-valeur (key-value lookups) dans un espace en 2D et en les traitant comme des requêtes d'enveloppe convexe, le modèle peut tirer parti d'algorithmes géométriques hautement optimisés. Cela accélère non seulement la récupération des données, mais impose également un modèle d'accès à la mémoire plus structuré et déterministe, une condition cruciale pour l'exécution de programmes.

#2. Gestion de l'état via des traces en ajout seul (Append-Only Traces)

Dans un environnement informatique traditionnel, la mémoire est mutable. Dans un transformer autorégressif, la séquence est en mode "ajout seul" (append-only). Pour faire tourner une machine virtuelle, le modèle doit encoder l'intégralité de son état (registres, pile, pointeurs de mémoire) dans la séquence de sortie.

Pointeur d'instruction : Il suit la ligne actuelle du programme compilé.
Représentation de la pile : Elle encode les opérations d'empilement/dépilement (push/pop) comme des ajouts à la séquence.
Mises à jour de la mémoire : Elle récupère la valeur la plus récente d'une variable spécifique en interrogeant l'historique à l'aide de la tête d'attention logarithmique.

#3. Compilation directement dans les poids du modèle

L'implication la plus vertigineuse est sans doute le concept de compilation de logiciels directement dans les poids du modèle. Si un transformer peut exécuter une machine virtuelle, nous pouvons théoriquement compiler n'importe quel programme déterministe (comme un algorithme de tri, un moteur physique ou une fonction de hachage cryptographique) dans un format que le modèle peut exécuter nativement. Cela vient brouiller la frontière entre un réseau de neurones pré-entraîné et un exécutable binaire compilé.

#Les prochaines étapes

L'exécution réussie du solveur de Sudoku d'Arto Inkala n'est que le commencement. À mesure que ces recherches gagneront en maturité, nous pouvons nous attendre à plusieurs développements passionnants :

Architectures hybrides : Les futurs modèles fondationnels pourraient intégrer un mélange de têtes d'attention standard en grande dimension pour le raisonnement sémantique, et de têtes d'enveloppe convexe en 2D spécifiquement dédiées à la logique stricte et au suivi d'état.
Exécution de code native : Pour certaines classes de problèmes, nous pourrions nous affranchir totalement des interpréteurs de code externes, en nous appuyant sur le modèle pour exécuter nativement du bytecode conteneurisé (sandboxed) lors de la phase d'inférence.
Capacités de raisonnement améliorées : En intégrant l'exécution déterministe au cœur de l'architecture, les modèles hallucineront probablement beaucoup moins sur les tâches qui exigent des preuves mathématiques strictes ou des transformations de données complexes.

Pour la communauté Ichiban Tools, cela signifie que les utilitaires et les outils de développement que nous construisons par-dessus les LLM s'apprêtent à devenir considérablement plus rapides et fiables. La perspective d'intégrer des analyses syntaxiques complexes (parsing) ou des analyses statiques directement dans la passe avant (forward pass) d'un LLM ouvre de tout nouveaux paradigmes en matière de productivité pour les développeurs.

#Conclusion

La réalisation que les LLM peuvent fonctionner comme des ordinateurs extrêmement efficaces marque une étape majeure dans le domaine de l'intelligence artificielle. En repensant fondamentalement le mécanisme d'attention et en exploitant les requêtes d'enveloppe convexe en 2D pour atteindre des temps d'inférence logarithmiques, les chercheurs ont permis aux transformers d'exécuter nativement des programmes longs et déterministes.

Alors que nous continuons d'explorer les limites de ce dont les réseaux de neurones sont capables, la convergence entre le raisonnement probabiliste et le calcul exact donnera sans aucun doute naissance à des systèmes d'IA plus robustes, performants et polyvalents. Nous ne formons plus seulement des modèles à prédire le mot suivant ; nous leur apprenons à exécuter la prochaine instruction.