Gemini 3.5: A Era da Ação Agêntica Chegou

Hero

Nos últimos anos, a comunidade de engenharia de software esteve totalmente obcecada com a geração de conteúdo. Construímos pipelines sofisticados para fazer com que os LLMs escrevam código, gerem texto e resumam logs. Mas, como qualquer engenheiro sênior que já lidou com implementações complexas do LangChain ou loops de execução customizados frágeis vai te dizer, gerar texto não é a mesma coisa que fazer as coisas acontecerem.

Hoje, o Google efetivamente preencheu essa lacuna com o anúncio do Gemini 3.5: inteligência de fronteira com ação. Este lançamento não é apenas mais um aumento de parâmetros ou uma pequena expansão da janela de contexto; é uma mudança arquitetônica fundamental em direção ao comportamento agêntico nativo.

Aqui na Ichiban Tools, passamos nossos dias construindo utilitários que poupam o tempo dos desenvolvedores. Integramos LLMs profundamente em nossos fluxos de trabalho. Com o Gemini 3.5, o paradigma muda de nós orquestrando a IA para a IA orquestrando o fluxo de trabalho.

#O Que Aconteceu

O Google revelou a família Gemini 3.5, enfatizando a "inteligência com ação". Enquanto iterações anteriores do Gemini (como o 1.5 Pro) introduziram janelas de contexto gigantescas e capacidades multimodais incríveis, elas ainda dependiam muito do desenvolvedor para gerenciar o estado da execução. Se o modelo precisasse consultar um banco de dados, ler um arquivo e tomar uma decisão, o código da sua aplicação tinha que lidar com cada chamada de função, parsear o JSON e devolver o contexto para o modelo iterativamente.

O Gemini 3.5 introduz um motor de execução integrado. O modelo agora é capaz de planejar a longo prazo e usar ferramentas de forma autônoma. Os principais destaques do anúncio incluem:

Orquestração Nativa de Ferramentas em Múltiplas Etapas: O modelo pode chamar uma ferramenta, avaliar o resultado e decidir o próximo passo sem precisar devolver o controle para a aplicação host a cada etapa.
Cache de Contexto Orientado à Ação: O estado é mantido internamente durante um "loop de ação", reduzindo drasticamente a latência e o consumo de tokens em fluxos de trabalho agênticos complexos e de múltiplos turnos.
Recuperação de Falhas Aprimorada: Se a chamada a uma ferramenta falhar (por exemplo, uma API retorna um erro 404 ou um comando de shell lança um erro de sintaxe), o Gemini 3.5 é treinado para ler o erro autonomamente, ajustar seus parâmetros e tentar novamente — exatamente como um engenheiro humano faria.

#Por Que Isso Importa

Se você constrói ferramentas para desenvolvedores ou plataformas internas, sabe a dor de cabeça que são os fluxos de trabalho de IA frágeis. Você cria o prompt para que o modelo execute uma tarefa, dá a ele um conjunto de funções e reza para que ele não alucine um parâmetro obrigatório ou fique preso em um loop infinito de chamadas de API com falha.

O Gemini 3.5 muda a economia da construção de software agêntico. Ao empurrar o loop "ReAct" (Reasoning and Acting - Raciocínio e Ação) diretamente para as capacidades nativas do modelo, os desenvolvedores podem eliminar milhares de linhas de código de orquestração.

Isso significa maior confiabilidade, menor latência e menos tempo de engenharia gasto sendo babá de loops de IA. Pela primeira vez, podemos confiar ao modelo um objetivo de alto nível ("Refatore este diretório para usar a nova biblioteca de logs") e ter a certeza de que ele gerenciará as micro-decisões: encontrar os arquivos, fazer as edições, rodar o linter e corrigir os erros de sintaxe que surgirem.

#Implicações Técnicas

Do ponto de vista arquitetônico, adotar o Gemini 3.5 exige repensar como nos comunicamos com a API. Vamos dar uma olhada em algumas mudanças técnicas que você precisará considerar.

#1. Capacidades Declarativas de Alto Nível

Em vez de definir micro-funções para cada ação atômica possível, agora você pode fornecer ao Gemini 3.5 capacidades mais amplas. A API introduz ambientes suportados nativamente (como acesso ao sistema de arquivos ou execução de shell) que você pode isolar com segurança em um sandbox.

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

// The new agentic paradigm
const response = await ai.models.executeTask({
  model: 'gemini-3.5-pro',
  objective: 'Migrate the legacy CSS files in /styles to Tailwind classes in the React components.',
  sandbox: {
    type: 'local_container',
    permissions: ['read_write_workspace', 'run_tests']
  },
  config: {
    maxAutonomousTurns: 15,
    onRequiresApproval: (plan) => console.log("Approval needed for:", plan)
  }
});

// The response contains the full trail of actions taken, not just text.
console.table(response.actionTrail);

#2. Reduções Drásticas nos Round-Trips de Tokens

Anteriormente, uma ação de 5 etapas exigia 5 requisições HTTP distintas para o endpoint de inferência, passando a enorme janela de contexto acumulada a cada vez. A execução com estado (stateful) do Gemini 3.5 significa que você faz uma requisição. O modelo lida com as etapas intermediárias de raciocínio internamente, retornando apenas o resultado final (ou pausando quando atinge um limite que exige aprovação). Esse é um ganho massivo em custo e latência.

#3. Fallbacks Determinísticos

Um dos feitos técnicos mais impressionantes detalhados no lançamento é a capacidade do modelo de recorrer perfeitamente a fallbacks determinísticos. Se um objetivo for muito ambíguo, o Gemini 3.5 gerará automaticamente uma pergunta de esclarecimento direcionada, em vez de adivinhar e destruir o estado da aplicação.

#O Que Vem a Seguir para a Ichiban Tools

Já estamos experimentando os endpoints de acesso antecipado. Você pode esperar ver o Gemini 3.5 profundamente integrado em todo o ecossistema da Ichiban Tools muito em breve:

Melhorias na CLI: Nossas ferramentas de CLI farão a transição de assistentes de turno único para agentes autônomos. Você poderá pedir à CLI para "diagnosticar e corrigir a falha de build do Webpack", e ela investigará os logs, ajustará as configurações e verificará a correção totalmente por conta própria.
Editores Mais Inteligentes: Nossos fluxos de trabalho de PDF, Áudio e Vídeo suportarão macrocomandos. Em vez de aplicar manualmente 10 filtros ou edições diferentes, você pode emitir diretrizes de alto nível ("Normalize o áudio, corte o silêncio e gere marcadores de capítulo") e assistir à execução.

#Conclusão

O lançamento do Gemini 3.5 é o tiro de largada para a era agêntica. Estamos ultrapassando a fase da IA como uma novidade conversacional ou um simples motor de autocompletar. A IA agora é um participante ativo no ciclo de vida da engenharia — um sistema capaz de agir, se recuperar de falhas e conduzir tarefas até a conclusão.

É hora de parar de escrever orquestradores de IA genéricos (boilerplate) e começar a construir ferramentas de verdade. A fronteira está aberta. Vamos ao trabalho.