Needle: Destilando el tool calling de Gemini en un micromodelo de 26 millones de parámetros

Hero

Si llevas el último año montando flujos de trabajo con agentes, seguro que conoces el problema de fondo: el tool calling requiere inteligencia, y la inteligencia suele implicar modelos enormes. Nos hemos acostumbrado a enrutar nuestras llamadas a funciones a través de APIs colosales o a resignarnos a la latencia que suponen los pesos locales que ocupan gigabytes.

Hoy, ese paradigma ha cambiado. Cactus Compute irrumpió en Hacker News con un "Show HN" que nos llamó la atención de inmediato: Needle, un modelo hiperespecializado de 26 millones de parámetros destilado explícitamente de Gemini 3.1 Flash Lite de Google. No escribe poesía ni genera scripts en Python. Hace exactamente una cosa: analiza la intención del usuario comparándola con esquemas de herramientas y devuelve un JSON perfecto. Y lo hace a una velocidad vertiginosa.

#¿Qué ha pasado?

Cactus Compute ha publicado Needle como código abierto bajo la licencia MIT, incluyendo sus pesos en Hugging Face. Con apenas 26 millones de parámetros, el tamaño del modelo es sorprendentemente pequeño. Para ponerlo en perspectiva, Needle es solo una fracción de modelos que antes considerábamos "diminutos", como FunctionGemma-270M o Qwen-0.6B.

A pesar de su tamaño, Needle es increíblemente competente en su tarea principal. Es capaz de manejar tool calling single-shot en 15 categorías distintas, que van desde controles domóticos y mensajería hasta navegación y temporizadores. Al destilar las capacidades latentes de Gemini 3.1 Flash Lite en una arquitectura hiperenfocada, el equipo ha demostrado que no necesitas miles de millones de parámetros para parsear un esquema y extraer los argumentos.

#Por qué es importante: Eficiencia extrema en el Edge

Lo más fascinante de Needle no es solo su tamaño, sino lo que ese tamaño hace posible. Al cuantizarlo a INT4, el modelo completo ocupa aproximadamente 14 MB de memoria.

Piénsalo por un momento. Este modelo no requiere un clúster de GPUs dedicado; apenas necesita una CPU moderna. Esto abre la puerta a un tool calling sofisticado y con enfoque local-first en entornos donde antes era imposible:

Wearables: Los relojes inteligentes y las gafas de realidad aumentada (AR) ahora pueden procesar comandos de voz localmente para convertirlos en llamadas a APIs estructuradas, evitando por completo la latencia de la nube.
Dispositivos IoT: Los hubs domóticos pueden procesar y enrutar la intención del usuario en un ESP32 o un chip ARM de gama baja sin tener que hacer peticiones de ida y vuelta a un servidor externo.
Aplicaciones móviles: Las apps pueden integrar el modelo de forma nativa, asegurando interacciones de interfaz de usuario sin latencia y preservando la privacidad al mantener las consultas directamente en el dispositivo.

En términos de rendimiento, Needle es una auténtica bestia. En hardware de consumo, alcanza los 6.000 tokens por segundo en la fase de prefill y 1.200 tokens por segundo en decodificación. En el contexto de la interacción con el usuario, esto significa que el payload JSON se genera y está listo para ejecutarse literalmente más rápido de lo que el ojo humano tarda en percibir un estado de carga.

#Implicaciones técnicas: La arquitectura "No-FFN"

Como ingenieros, las decisiones de arquitectura detrás de Needle son posiblemente la parte más fascinante de este lanzamiento. El equipo de Cactus Compute ha introducido lo que ellos denominan Simple Attention Network (SAN).

Las arquitecturas estándar de transformers suelen construirse alternando capas de Multi-Head Attention (atención multicabezal) y Feed-Forward Networks (FFNs o perceptrones multicapa, MLPs). En el mundo del deep learning, es bien sabido que las FFNs actúan como la "memoria" del modelo, almacenando el conocimiento del mundo y los hechos concretos, mientras que la atención se encarga del enrutamiento dinámico del contexto.

El gran descubrimiento con Needle es darse cuenta de que el tool calling no es una tarea de razonamiento o memoria; es una tarea de recuperación y ensamblaje.

Cuando le pasas a un modelo una lista de esquemas de herramientas disponibles y una consulta de un usuario, el modelo no necesita saber cuál es la capital de Francia. Solo necesita alinear los fragmentos semánticos de la petición del usuario (por ejemplo, "apaga las luces del salón") con los campos requeridos en el esquema JSON proporcionado.

Por lo tanto, Needle elimina por completo las capas FFN. Utiliza un encoder de 12 capas y un decoder de 8 capas compuestos íntegramente por mecanismos puros de atención y gating. Al descartar las MLPs, han eliminado la mayor parte del peso de los parámetros, reduciendo drásticamente la carga computacional sin sacrificar las capacidades de enrutamiento específicas necesarias para ejecutar funciones.

#El pipeline de entrenamiento

Entrenar un modelo tan específico ha requerido un pipeline bastante ingenioso:

Preentrenamiento: El modelo fue entrenado desde cero con 200 mil millones de tokens. Debido a su tamaño microscópico, esta fase duró apenas 27 horas en un clúster de 16 chips TPU v6e.
Post-entrenamiento (Destilación): El equipo generó 2 mil millones de tokens de datos sintéticos muy complejos para tool calling utilizando Gemini 3.1 Flash Lite. Esta fase apenas llevó 45 minutos, logrando transferir de forma efectiva a la arquitectura SAN el sólido comportamiento de Gemini a la hora de seguir instrucciones y parsear esquemas.

#¿Y ahora qué?

Needle ya está disponible, y la barrera de entrada es prácticamente nula. Puedes clonar el repositorio, instalar las dependencias y empezar a trastear con tus propios esquemas locales en cuestión de minutos.

Si quieres probarlo en local, Cactus Compute ha preparado un setup súper simplificado:

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Esto lanza un playground local donde puedes inyectar esquemas de herramientas personalizados —tal vez APIs de microservicios internos o scripts locales de sistema— y ver cómo el modelo enruta los comandos hacia ellos al instante. Al ser un modelo tan pequeño, hacerle fine-tuning con herramientas propietarias de tu dominio específico resulta increíblemente rápido y barato.

#Conclusión

El lanzamiento de Needle es una validación enorme para la filosofía de los "micromodelos". Mientras que los modelos fundacionales de frontera seguirán creciendo en tamaño para superar los límites del razonamiento general, la capa de ejecución de la ingeniería de software se mueve en la dirección opuesta.

Al podar agresivamente las arquitecturas para ajustarlas a patrones operativos específicos —como arrancar de cuajo las capas FFN en tareas de enrutamiento puramente basadas en el contexto—, estamos entrando en una era de componentes de IA localizados e hiperoptimizados. Needle demuestra que, para la "fontanería" mecánica de los sistemas basados en agentes, la destilación y el minimalismo arquitectónico ganan a la fuerza bruta de la cantidad de parámetros. En Ichiban Tools, sin duda vamos a experimentar integrando esto en nuestros pipelines de utilidades locales.