Needle: Destilando o uso de ferramentas do Gemini em um micro-modelo de 26 milhões de parâmetros

Hero

Se você vem construindo workflows com agentes no último ano, já conhece a tensão fundamental: tool calling exige inteligência, e inteligência tradicionalmente exige modelos massivos. Nos acostumamos a rotear nossas chamadas de função através de APIs gigantescas ou a aceitar a latência de pesos locais que pesam gigabytes.

Hoje, esse paradigma mudou. A Cactus Compute apareceu no Hacker News com um "Show HN" que imediatamente chamou nossa atenção: o Needle, um modelo hiper-especializado de 26 milhões de parâmetros explicitamente destilado do Gemini 3.1 Flash Lite do Google. Ele não escreve poesia nem gera scripts em Python. Ele faz exatamente uma coisa: analisa a intenção do usuário em relação a schemas de ferramentas e retorna um JSON perfeito. E faz isso em uma velocidade alucinante.

#O que aconteceu?

A Cactus Compute disponibilizou o Needle em open-source sob a licença MIT, incluindo seus pesos no Hugging Face. Com meros 26M de parâmetros, o modelo é surpreendentemente pequeno. Para colocar isso em perspectiva, o Needle é uma fração do tamanho de modelos que antes eram considerados "minúsculos", como o FunctionGemma-270M ou o Qwen-0.6B.

Apesar do seu tamanho, o Needle é ferozmente competente na sua tarefa designada. Ele lida com tool calling single-shot em 15 categorias diferentes — que vão desde controles de smart home e mensagens até navegação e temporizadores. Ao destilar as capacidades latentes do Gemini 3.1 Flash Lite em uma arquitetura hiper-focada, a equipe provou que você não precisa de bilhões de parâmetros para analisar um schema e extrair argumentos.

#Por que isso importa: Eficiência extrema na Edge

O aspecto mais atraente do Needle não é apenas o seu tamanho; é o que esse tamanho possibilita. Quando quantizado para INT4, o modelo inteiro ocupa aproximadamente 14 MB de memória.

Deixe esses números afundarem por um momento. Esse modelo não requer um cluster de GPUs dedicado; ele mal precisa de uma CPU moderna. Isso abre as portas para o uso de tool calling sofisticado e local-first em ambientes onde antes era impossível:

Wearables: Smartwatches e óculos de realidade aumentada agora podem processar comandos de voz em chamadas de API estruturadas localmente, ignorando completamente a latência da nuvem.
Dispositivos IoT: Hubs de smart home podem lidar com o roteamento de intenções em um ESP32 ou em um chip ARM de baixo desempenho sem precisar fazer uma requisição de ida e volta a um servidor.
Aplicativos mobile: Os aplicativos podem embutir o modelo nativamente, garantindo interações de UI com latência zero e preservando a privacidade do usuário ao manter as consultas on-device.

Em termos de desempenho, o Needle é um monstro absoluto. Em hardware de consumo comum, ele atinge 6.000 tokens por segundo no prefill e 1.200 tokens por segundo no decode. No contexto da interação do usuário, isso significa que o payload JSON é gerado e fica pronto para ser executado literalmente mais rápido do que o olho humano consegue registrar o estado de carregamento.

#Implicações técnicas: A arquitetura "No-FFN"

Como engenheiros, as escolhas arquiteturais por trás do Needle são indiscutivelmente a parte mais fascinante deste lançamento. A equipe da Cactus Compute introduziu o que eles chamam de Simple Attention Network (SAN).

As arquiteturas de transformers padrão são tipicamente construídas usando camadas alternadas de Multi-Head Attention e Feed-Forward Networks (FFNs, ou MLPs). É amplamente compreendido nos círculos de deep learning que as FFNs atuam como a "memória" do modelo, armazenando conhecimento de mundo e fatos, enquanto a Attention lida com o roteamento dinâmico do contexto.

A grande sacada com o Needle foi perceber que tool calling não é uma tarefa de raciocínio ou memória; é uma tarefa de recuperação e montagem.

Quando você alimenta um modelo com uma lista de schemas de ferramentas disponíveis e uma consulta do usuário, o modelo não precisa saber qual é a capital da França. Ele só precisa alinhar os trechos semânticos da solicitação do usuário (ex: "apagar as luzes da sala") com os slots exigidos no schema JSON fornecido.

Portanto, o Needle remove completamente as camadas FFN. Ele usa um encoder de 12 camadas e um decoder de 8 camadas consistindo inteiramente de atenção pura e mecanismos de gating. Ao descartar os MLPs, eles eliminaram a maior parte do peso dos parâmetros, reduzindo drasticamente o overhead computacional sem sacrificar as capacidades específicas de roteamento necessárias para as function calls.

#O pipeline de treinamento

Treinar um modelo tão específico exigiu um pipeline inteligente:

Pré-treinamento: O modelo foi treinado do zero em 200 bilhões de tokens. Devido ao seu tamanho microscópico, essa fase levou apenas 27 horas em um cluster de 16 chips TPU v6e.
Pós-treinamento (Destilação): A equipe gerou 2 bilhões de tokens de dados sintéticos de function-calling altamente complexos usando o Gemini 3.1 Flash Lite. Essa fase levou meros 45 minutos, transferindo efetivamente o comportamento robusto de seguimento de instruções e análise de schemas do Gemini para a arquitetura SAN.

#O que vem a seguir?

O Needle já está disponível agora, e a barreira de entrada é praticamente zero. Você pode clonar o repositório, instalar as dependências e começar a experimentar com seus próprios schemas locais em minutos.

Se você quiser testá-lo localmente, a Cactus Compute forneceu um setup simplificado:

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Isso inicia um playground local onde você pode injetar schemas de ferramentas personalizados — talvez APIs de microsserviços internos ou scripts de sistema locais — e observar o modelo rotear comandos para eles instantaneamente. Como o modelo é tão pequeno, fazer um fine-tuning dele para ferramentas proprietárias e de domínio específico é incrivelmente barato e rápido.

#Conclusão

O lançamento do Needle é uma validação enorme da filosofia dos "micro-modelos". Enquanto os modelos de fronteira fundacionais continuarão a crescer em tamanho para expandir os limites do raciocínio geral, a camada de execução da engenharia de software está se movendo na direção oposta.

Ao podar agressivamente as arquiteturas para se ajustarem a padrões operacionais específicos — como arrancar as FFNs para tarefas de roteamento puramente baseadas em contexto — estamos entrando em uma era de componentes de IA hiper-otimizados e localizados. O Needle prova que, para o encanamento mecânico de sistemas baseados em agentes, a destilação e o minimalismo arquitetural superam a mera escala de parâmetros. Na Ichiban Tools, com certeza faremos experimentos para embutir isso em nossos pipelines de utilitários locais.