Back to Blog

Needle: Destilando o uso de ferramentas do Gemini em um micro-modelo de 26 milhões de parâmetros

May 13, 2026by Ichiban Team
aimachine-learningllmstool-callinggeminiedge-computing

Hero

Se você vem construindo workflows com agentes no último ano, já conhece a tensão fundamental: tool calling exige inteligência, e inteligência tradicionalmente exige modelos massivos. Nos acostumamos a rotear nossas chamadas de função através de APIs gigantescas ou a aceitar a latência de pesos locais que pesam gigabytes.

Hoje, esse paradigma mudou. A Cactus Compute apareceu no Hacker News com um "Show HN" que imediatamente chamou nossa atenção: o Needle, um modelo hiper-especializado de 26 milhões de parâmetros explicitamente destilado do Gemini 3.1 Flash Lite do Google. Ele não escreve poesia nem gera scripts em Python. Ele faz exatamente uma coisa: analisa a intenção do usuário em relação a schemas de ferramentas e retorna um JSON perfeito. E faz isso em uma velocidade alucinante.

#O que aconteceu?

A Cactus Compute disponibilizou o Needle em open-source sob a licença MIT, incluindo seus pesos no Hugging Face. Com meros 26M de parâmetros, o modelo é surpreendentemente pequeno. Para colocar isso em perspectiva, o Needle é uma fração do tamanho de modelos que antes eram considerados "minúsculos", como o FunctionGemma-270M ou o Qwen-0.6B.

Apesar do seu tamanho, o Needle é ferozmente competente na sua tarefa designada. Ele lida com tool calling single-shot em 15 categorias diferentes — que vão desde controles de smart home e mensagens até navegação e temporizadores. Ao destilar as capacidades latentes do Gemini 3.1 Flash Lite em uma arquitetura hiper-focada, a equipe provou que você não precisa de bilhões de parâmetros para analisar um schema e extrair argumentos.

#Por que isso importa: Eficiência extrema na Edge

O aspecto mais atraente do Needle não é apenas o seu tamanho; é o que esse tamanho possibilita. Quando quantizado para INT4, o modelo inteiro ocupa aproximadamente 14 MB de memória.

Deixe esses números afundarem por um momento. Esse modelo não requer um cluster de GPUs dedicado; ele mal precisa de uma CPU moderna. Isso abre as portas para o uso de tool calling sofisticado e local-first em ambientes onde antes era impossível:

  • Wearables: Smartwatches e óculos de realidade aumentada agora podem processar comandos de voz em chamadas de API estruturadas localmente, ignorando completamente a latência da nuvem.
  • Dispositivos IoT: Hubs de smart home podem lidar com o roteamento de intenções em um ESP32 ou em um chip ARM de baixo desempenho sem precisar fazer uma requisição de ida e volta a um servidor.
  • Aplicativos mobile: Os aplicativos podem embutir o modelo nativamente, garantindo interações de UI com latência zero e preservando a privacidade do usuário ao manter as consultas on-device.

Em termos de desempenho, o Needle é um monstro absoluto. Em hardware de consumo comum, ele atinge 6.000 tokens por segundo no prefill e 1.200 tokens por segundo no decode. No contexto da interação do usuário, isso significa que o payload JSON é gerado e fica pronto para ser executado literalmente mais rápido do que o olho humano consegue registrar o estado de carregamento.

#Implicações técnicas: A arquitetura "No-FFN"

Como engenheiros, as escolhas arquiteturais por trás do Needle são indiscutivelmente a parte mais fascinante deste lançamento. A equipe da Cactus Compute introduziu o que eles chamam de Simple Attention Network (SAN).

As arquiteturas de transformers padrão são tipicamente construídas usando camadas alternadas de Multi-Head Attention e Feed-Forward Networks (FFNs, ou MLPs). É amplamente compreendido nos círculos de deep learning que as FFNs atuam como a "memória" do modelo, armazenando conhecimento de mundo e fatos, enquanto a Attention lida com o roteamento dinâmico do contexto.

A grande sacada com o Needle foi perceber que tool calling não é uma tarefa de raciocínio ou memória; é uma tarefa de recuperação e montagem.

Quando você alimenta um modelo com uma lista de schemas de ferramentas disponíveis e uma consulta do usuário, o modelo não precisa saber qual é a capital da França. Ele só precisa alinhar os trechos semânticos da solicitação do usuário (ex: "apagar as luzes da sala") com os slots exigidos no schema JSON fornecido.

Portanto, o Needle remove completamente as camadas FFN. Ele usa um encoder de 12 camadas e um decoder de 8 camadas consistindo inteiramente de atenção pura e mecanismos de gating. Ao descartar os MLPs, eles eliminaram a maior parte do peso dos parâmetros, reduzindo drasticamente o overhead computacional sem sacrificar as capacidades específicas de roteamento necessárias para as function calls.

#O pipeline de treinamento

Treinar um modelo tão específico exigiu um pipeline inteligente:

  1. Pré-treinamento: O modelo foi treinado do zero em 200 bilhões de tokens. Devido ao seu tamanho microscópico, essa fase levou apenas 27 horas em um cluster de 16 chips TPU v6e.
  2. Pós-treinamento (Destilação): A equipe gerou 2 bilhões de tokens de dados sintéticos de function-calling altamente complexos usando o Gemini 3.1 Flash Lite. Essa fase levou meros 45 minutos, transferindo efetivamente o comportamento robusto de seguimento de instruções e análise de schemas do Gemini para a arquitetura SAN.

#O que vem a seguir?

O Needle já está disponível agora, e a barreira de entrada é praticamente zero. Você pode clonar o repositório, instalar as dependências e começar a experimentar com seus próprios schemas locais em minutos.

Se você quiser testá-lo localmente, a Cactus Compute forneceu um setup simplificado:

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Isso inicia um playground local onde você pode injetar schemas de ferramentas personalizados — talvez APIs de microsserviços internos ou scripts de sistema locais — e observar o modelo rotear comandos para eles instantaneamente. Como o modelo é tão pequeno, fazer um fine-tuning dele para ferramentas proprietárias e de domínio específico é incrivelmente barato e rápido.

#Conclusão

O lançamento do Needle é uma validação enorme da filosofia dos "micro-modelos". Enquanto os modelos de fronteira fundacionais continuarão a crescer em tamanho para expandir os limites do raciocínio geral, a camada de execução da engenharia de software está se movendo na direção oposta.

Ao podar agressivamente as arquiteturas para se ajustarem a padrões operacionais específicos — como arrancar as FFNs para tarefas de roteamento puramente baseadas em contexto — estamos entrando em uma era de componentes de IA hiper-otimizados e localizados. O Needle prova que, para o encanamento mecânico de sistemas baseados em agentes, a destilação e o minimalismo arquitetural superam a mera escala de parâmetros. Na Ichiban Tools, com certeza faremos experimentos para embutir isso em nossos pipelines de utilitários locais.