Needle: Destillation von Gemini Tool Calling in ein 26M-Parameter-Mikromodell

Hero

Wer im vergangenen Jahr an Agentic Workflows gearbeitet hat, kennt das grundlegende Dilemma: Tool Calling erfordert Intelligenz, und Intelligenz erfordert traditionell massive Modelle. Wir haben uns daran gewöhnt, unsere Function Calls über riesige APIs zu leiten oder uns mit der Latenz gigabytegroßer lokaler Weights abzufinden.

Heute hat sich dieses Paradigma verschoben. Cactus Compute landete mit einem "Show HN" auf Hacker News, das sofort unsere Aufmerksamkeit erregte: Needle, ein hyperspezialisiertes Modell mit 26 Millionen Parametern, das explizit aus Googles Gemini 3.1 Flash Lite destilliert wurde. Es schreibt keine Gedichte und generiert auch keine Python-Skripte. Es tut genau eine Sache: Es parst den User Intent gegen Tool-Schemas und gibt perfektes JSON aus. Und das mit atemberaubender Geschwindigkeit.

#Was ist passiert?

Cactus Compute hat Needle unter der MIT-Lizenz Open Source gestellt, einschließlich der Weights auf Hugging Face. Mit gerade einmal 26M Parametern ist das Modell erstaunlich klein. Um das in Relation zu setzen: Needle ist nur ein Bruchteil so groß wie Modelle, die bisher als "winzig" galten, wie etwa FunctionGemma-270M oder Qwen-0.6B.

Trotz seiner Größe ist Needle bei seiner vorgesehenen Aufgabe äußerst kompetent. Es bewältigt Single-Shot Tool Calling in 15 verschiedenen Kategorien – von Smart-Home-Steuerungen und Messaging bis hin zu Navigation und Timern. Indem das Team die latenten Fähigkeiten von Gemini 3.1 Flash Lite in eine hyperfokussierte Architektur destilliert hat, konnte es beweisen, dass man keine Milliarden von Parametern benötigt, um ein Schema zu parsen und Argumente zu extrahieren.

#Warum das wichtig ist: Extreme Effizienz an der Edge

Der faszinierendste Aspekt von Needle ist nicht nur seine Größe; es ist das, was diese Größe ermöglicht. Wenn das Modell auf INT4 quantisiert wird, belegt es insgesamt nur knapp 14 MB Arbeitsspeicher.

Lassen Sie diese Zahlen einen Moment auf sich wirken. Dieses Modell erfordert kein dediziertes GPU-Cluster; es benötigt kaum eine moderne CPU. Dies eröffnet anspruchsvolles, Local-First Tool Calling für Umgebungen, in denen dies zuvor unmöglich war:

Wearables: Smartwatches und AR-Brillen können nun Sprachbefehle lokal in strukturierte API-Calls umwandeln und so die Latenz der Cloud vollständig umgehen.
IoT-Geräte: Smart-Home-Hubs können das Intent Routing auf einem ESP32 oder einem Low-End-ARM-Chip verarbeiten, ohne den Umweg über einen Server nehmen zu müssen.
Mobile Apps: Anwendungen können das Modell nativ einbetten, was Zero-Latency-UI-Interaktionen gewährleistet und die Privatsphäre der Nutzer schützt, da die Abfragen auf dem Gerät (On-Device) bleiben.

Was die Performance angeht, ist Needle ein absolutes Biest. Auf Consumer-Hardware erreicht es 6.000 Tokens pro Sekunde für den Prefill und 1.200 Tokens pro Sekunde für den Decode. Im Kontext der Nutzerinteraktion bedeutet dies, dass der JSON-Payload buchstäblich schneller generiert und ausführbereit ist, als das menschliche Auge den Ladezustand erfassen kann.

#Technische Implikationen: Die "No-FFN"-Architektur

Für uns als Ingenieure sind die architektonischen Entscheidungen hinter Needle wohl der faszinierendste Teil des Releases. Das Team von Cactus Compute hat das sogenannte Simple Attention Network (SAN) eingeführt.

Standard-Transformer-Architekturen werden typischerweise aus abwechselnden Schichten von Multi-Head Attention und Feed-Forward Networks (FFNs oder MLPs) aufgebaut. In Deep-Learning-Kreisen ist es weithin anerkannt, dass FFNs als "Gedächtnis" des Modells fungieren, das Weltwissen und Fakten speichert, während Attention das dynamische Routing des Kontextes übernimmt.

Die bahnbrechende Erkenntnis bei Needle ist die Einsicht, dass Tool Calling keine Reasoning- oder Gedächtnisaufgabe ist; es ist eine Aufgabe des Abrufens (Retrieval) und Zusammenfügens (Assembly).

Wenn man einem Modell eine Liste verfügbarer Tool-Schemas und eine User Query übergibt, muss das Modell nicht wissen, was die Hauptstadt von Frankreich ist. Es muss lediglich die semantischen Spans der Nutzeranfrage (z. B. "mach das Licht im Wohnzimmer aus") den erforderlichen Slots im bereitgestellten JSON-Schema zuordnen.

Aus diesem Grund verzichtet Needle vollständig auf die FFN-Layer. Es verwendet einen 12-Layer-Encoder und einen 8-Layer-Decoder, die ausschließlich aus reinen Attention- und Gating-Mechanismen bestehen. Durch den Verzicht auf die MLPs wurde der Großteil der Parameter-Weights eliminiert, was den Rechenaufwand drastisch reduziert, ohne die spezifischen Routing-Fähigkeiten zu opfern, die für Function Calling erforderlich sind.

#Die Training-Pipeline

Das Training eines derart spezifischen Modells erforderte eine clevere Pipeline:

Pretraining: Das Modell wurde von Grund auf (from scratch) mit 200 Milliarden Tokens trainiert. Aufgrund seiner mikroskopischen Größe dauerte diese Phase auf einem Cluster aus 16 TPU v6e-Chips nur 27 Stunden.
Post-Training (Destillation): Das Team generierte 2 Milliarden Tokens an hochkomplexen, synthetischen Function-Calling-Daten mithilfe von Gemini 3.1 Flash Lite. Diese Phase dauerte lediglich 45 Minuten und übertrug das robuste Instruction-Following- und Schema-Parsing-Verhalten von Gemini effektiv in die SAN-Architektur.

#Wie geht es weiter?

Needle ist ab sofort verfügbar und die Einstiegshürde geht praktisch gegen null. Sie können das Repository klonen, die Dependencies installieren und innerhalb von Minuten anfangen, mit Ihren eigenen lokalen Schemas zu experimentieren.

Wenn Sie es lokal testen möchten, hat Cactus Compute ein optimiertes Setup bereitgestellt:

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Dies startet einen lokalen Playground, in den Sie eigene Tool-Schemas injizieren können – vielleicht interne Microservice-APIs oder lokale Systemskripte – und beobachten können, wie das Modell Befehle sofort dorthin weiterleitet. Da das Modell so klein ist, ist das Fine-Tuning auf proprietäre, domänenspezifische Tools unglaublich günstig und schnell.

#Fazit

Das Release von Needle ist eine massive Bestätigung der "Mikromodell"-Philosophie. Während Foundational Frontier Models weiter wachsen werden, um die Grenzen des allgemeinen Reasonings zu verschieben, bewegt sich der Execution Layer des Software Engineerings in die entgegengesetzte Richtung.

Indem wir Architekturen aggressiv beschneiden, um sie an spezifische operationale Muster anzupassen – wie das Entfernen von FFNs für rein kontextgesteuerte Routing-Aufgaben –, treten wir in eine Ära hochoptimierter, lokalisierter KI-Komponenten ein. Needle beweist, dass beim mechanischen Plumbing von Agentic Systems Destillation und architektonischer Minimalismus reine Parametergröße übertrumpfen. Wir bei Ichiban Tools werden definitiv damit experimentieren, dies in unsere lokalen Utility-Pipelines einzubetten.