Back to Blog

Eseguire Programmi nei Transformer con un'Inferenza Esponenzialmente Più Veloce

March 13, 2026by Ichiban Team
aimachine learningtransformersinferenceperformance

Hero

#Introduzione

I Large Language Model (LLM) hanno conquistato il mondo con la loro capacità di comprendere e generare testi sorprendentemente simili a quelli umani. Tuttavia, dietro le straordinarie capacità probabilistiche di questi modelli si nasconde un limite ben noto: le architetture transformer tradizionali faticano a gestire calcoli lunghi, esatti e deterministici. Sebbene siano teoricamente Turing-completi, eseguire milioni di rigorosi passaggi di programmazione direttamente all'interno di un transformer standard è stato finora praticamente impossibile a causa dei colli di bottiglia prestazionali.

Ma cosa succederebbe se potessimo rimodellare il meccanismo di attention per aggirare queste limitazioni? E se un LLM potesse funzionare non solo come generatore di testo, ma come un vero e proprio computer ad alta efficienza? Recenti scoperte di Percepta hanno rivelato esattamente questo: un approccio innovativo per eseguire programmi all'interno dei transformer con un'inferenza esponenzialmente più veloce. Non si tratta di una semplice ottimizzazione incrementale, ma di una reinvenzione fondamentale di ciò che una rete neurale può elaborare nativamente.

#Cos'è Successo

I ricercatori di Percepta si sono posti una domanda affascinante: "Gli LLM possono essere dei computer?". Per rispondere, si sono concentrati sulla causa principale dell'inefficienza computazionale nelle sequenze lunghe. In un modello transformer standard, il meccanismo di attention richiede tipicamente una scansione completa dell'intera sequenza precedente per ogni nuovo token generato. Questo comporta una complessità temporale di $O(n)$ per ogni passaggio, che diventa rapidamente ingestibile quando si cerca di eseguire logiche complesse o rompicapi matematici su milioni di iterazioni.

Per superare questo ostacolo, il team ha introdotto una modifica architetturale rivoluzionaria. Limitando le lookup head a una dimensione di esattamente 2, hanno trasformato il meccanismo di attention standard in una query di inviluppo convesso (convex-hull) in 2D.

Questa trasformazione geometrica sposta la complessità temporale del modello nel recupero e nell'aggiornamento del proprio stato da lineare ($O(n)$) a logaritmica ($O(\log n)$) rispetto alla lunghezza della sequenza. Ciò accelera in modo esponenziale il processo di inferenza, permettendo al transformer modificato di sostenere una "traccia in sola aggiunta" (append-only trace) per milioni di passaggi senza subire un degrado catastrofico delle prestazioni.

In una sbalorditiva dimostrazione pratica, il team non si è affidato a strumenti esterni, interpreti di codice o chiamate API. Hanno invece eseguito un risolutore compilato interamente all'interno del transformer per risolvere il Sudoku di Arto Inkala, ampiamente riconosciuto come il puzzle Sudoku più difficile al mondo. Il modello ha raggiunto questo risultato basandosi esclusivamente sul proprio processo di "pensiero" interno, alimentato dal nuovo meccanismo di attention $O(\log n)$.

#Perché È Importante

Per gli sviluppatori e gli ingegneri che lavorano con l'IA, questo sviluppo risolve un punto di attrito critico: il divario tra la generazione probabilistica e l'esecuzione rigorosa e deterministica.

Attualmente, quando vogliamo che un LLM esegua calcoli matematici precisi o logiche complesse, di solito gli costruiamo un'impalcatura attorno. Utilizziamo agenti, function calling o interpreti di codice esterni (come le sandbox Python) per delegare il lavoro pesante e di precisione. L'LLM agisce come orchestratore, mentre l'ambiente di calcolo tradizionale gestisce l'esecuzione rigorosa.

Integrando la capacità di eseguire programmi direttamente nei pesi del transformer, riduciamo la necessità di gestire lo stato esternamente e di implementare complessi livelli di orchestrazione. Il modello stesso esegue essenzialmente una macchina virtuale (in modo analogo a un interprete WebAssembly). Ogni token generato rappresenta l'evoluzione dello stato di questa macchina virtuale in un momento specifico: aggiorna l'instruction pointer, gestisce lo stack e modifica la memoria.

Questo è fondamentale perché riduce drasticamente la latenza delle operazioni deterministiche, pur mantenendo le interfacce in linguaggio naturale che rendono gli LLM così potenti. Dimostra che le reti neurali possono colmare internamente il divario tra il ragionamento creativo e il calcolo rigoroso.

#Implicazioni Tecniche

Il passaggio da un'attention $O(n)$ a una $O(\log n)$ tramite query di inviluppo convesso in 2D porta con sé profonde implicazioni tecniche su come progettiamo e distribuiamo i sistemi di IA. Analizziamo i principali cambiamenti architetturali e i loro effetti:

#1. Meccanismi di Attention Geometrici

L'attention standard basata sul prodotto scalare (dot-product) calcola i punteggi di compatibilità in spazi ad alta dimensionalità, il che è computazionalmente oneroso. Proiettando le ricerche key-value in uno spazio 2D e trattandole come query di inviluppo convesso, il modello può sfruttare algoritmi geometrici altamente ottimizzati. Questo non solo velocizza il recupero dei dati, ma impone anche un pattern di accesso alla memoria più strutturato e deterministico, cruciale per l'esecuzione dei programmi.

#2. Gestione dello Stato tramite Tracce Append-Only

In un ambiente di calcolo tradizionale, la memoria è mutabile. In un transformer autoregressivo, la sequenza è in sola aggiunta (append-only). Per far girare una macchina virtuale, il modello deve codificare il suo intero stato (registri, stack, puntatori di memoria) nella sequenza di output.

  • Instruction Pointer: Tiene traccia della riga corrente del programma compilato.
  • Rappresentazione dello Stack: Codifica le operazioni di push/pop come aggiunte alla sequenza.
  • Aggiornamenti di Memoria: Recupera il valore più recente di una specifica variabile interrogando la cronologia tramite la head di attention logaritmica.

#3. Compilazione nei Pesi

Forse l'implicazione più sbalorditiva è il concetto di compilare il software direttamente nei pesi del modello. Se un transformer può eseguire una macchina virtuale, teoricamente possiamo compilare qualsiasi programma deterministico (come un algoritmo di ordinamento, un motore fisico o una funzione di hashing crittografico) in un formato che il modello può eseguire in modo nativo. Questo sfuma il confine tra una rete neurale pre-addestrata e un eseguibile binario compilato.

#Cosa Ci Aspetta

L'esecuzione riuscita del risolutore per il Sudoku di Arto Inkala è solo l'inizio. Man mano che questa ricerca matura, possiamo aspettarci di vedere diversi sviluppi entusiasmanti:

  • Architetture Ibride: I futuri foundation model potrebbero incorporare un mix di attention head standard ad alta dimensionalità per il ragionamento semantico, e head convex-hull in 2D specificamente dedicate alla logica rigorosa e al tracciamento dello stato.
  • Esecuzione di Codice Nativo: Per alcune classi di problemi, potremmo abbandonare del tutto gli interpreti di codice esterni, affidandoci al modello per eseguire nativamente bytecode in sandbox durante il forward pass di inferenza.
  • Capacità di Ragionamento Potenziate: Integrando l'esecuzione deterministica nell'architettura di base, è probabile che i modelli soffriranno molto meno di allucinazioni in compiti che richiedono rigorose dimostrazioni matematiche o complesse trasformazioni di dati.

Per la community di Ichiban Tools, questo significa che le utility e gli strumenti per sviluppatori che costruiamo basandoci sugli LLM stanno per diventare significativamente più veloci e molto più affidabili. La prospettiva di integrare operazioni complesse di parsing o analisi statica direttamente nel forward pass di un LLM apre paradigmi completamente nuovi per la produttività degli sviluppatori.

#Conclusione

La consapevolezza che gli LLM possano funzionare come computer ad alta efficienza segna una pietra miliare significativa nell'intelligenza artificiale. Ripensando radicalmente il meccanismo di attention e sfruttando le query di inviluppo convesso in 2D per ottenere tempi di inferenza logaritmici, i ricercatori hanno sbloccato la capacità dei transformer di eseguire nativamente programmi lunghi e deterministici.

Mentre continuiamo a esplorare i confini di ciò che le reti neurali possono ottenere, la convergenza tra ragionamento probabilistico e calcolo esatto produrrà senza dubbio sistemi di IA più robusti, capaci e versatili. Non stiamo più solo addestrando modelli a prevedere la parola successiva; stiamo insegnando loro a eseguire l'istruzione successiva.