Gemini 3.5: Ha llegado la era de la acción agéntica

Hero

Durante los últimos años, la comunidad de ingeniería de software ha estado completamente obsesionada con la generación. Hemos construido pipelines sofisticados para pedirle a los LLMs que escriban código, generen texto y resuman logs. Pero como te dirá cualquier ingeniero senior que haya lidiado con implementaciones complejas de LangChain o con ciclos de ejecución personalizados que se rompen con mirarlos, generar texto no es lo mismo que hacer el trabajo.

Hoy, Google ha cerrado esa brecha de manera efectiva con el anuncio de Gemini 3.5: inteligencia de vanguardia orientada a la acción. Este lanzamiento no es solo otro aumento de parámetros o una pequeña expansión en la ventana de contexto; es un pivote arquitectónico fundamental hacia un comportamiento agéntico nativo.

Aquí en Ichiban Tools, pasamos nuestros días creando herramientas que ahorran tiempo a los desarrolladores. Hemos integrado los LLMs profundamente en nuestros flujos de trabajo. Con Gemini 3.5, el paradigma cambia: ya no somos nosotros orquestando la IA, sino que es la IA la que orquesta el flujo de trabajo.

#Qué ha pasado

Google presentó la familia Gemini 3.5, haciendo gran énfasis en la "inteligencia con acción". Mientras que las iteraciones anteriores de Gemini (como 1.5 Pro) introdujeron ventanas de contexto gigantescas y capacidades multimodales increíbles, todavía dependían en gran medida de que el desarrollador gestionara el estado de ejecución. Si el modelo necesitaba buscar en una base de datos, leer un archivo y tomar una decisión, el código de tu aplicación tenía que manejar cada llamada a la función (function call), parsear el JSON de respuesta y devolver el contexto al modelo de forma iterativa.

Gemini 3.5 introduce un motor de ejecución integrado. Ahora, el modelo es capaz de planificar a largo plazo y usar herramientas de manera autónoma. Las características clave del anuncio incluyen:

Orquestación nativa de herramientas en múltiples pasos: El modelo puede llamar a una herramienta, evaluar el resultado y decidir el siguiente paso sin necesidad de devolverle el control a la aplicación principal entre cada acción.
Caché de contexto orientado a la acción: El estado se mantiene de manera interna durante un "ciclo de acción" (action loop), reduciendo drásticamente la latencia y el sobrecosto de tokens en flujos de trabajo agénticos complejos de múltiples turnos.
Recuperación de fallos mejorada: Si una llamada a una herramienta falla (por ejemplo, una API devuelve un error 404 o un comando de consola lanza un error de sintaxis), Gemini 3.5 está entrenado para leer el error de forma autónoma, ajustar sus parámetros y volver a intentarlo, tal como lo haría un ingeniero humano.

#Por qué importa

Si construyes herramientas para desarrolladores o plataformas internas, conoces bien el dolor de cabeza que suponen los flujos de trabajo de IA frágiles. Le pides a un modelo que ejecute una tarea, le das un conjunto de funciones y cruzas los dedos para que no alucine un parámetro obligatorio o se quede atrapado en un bucle infinito de llamadas a APIs fallidas.

Gemini 3.5 cambia por completo la viabilidad de crear software agéntico. Al integrar el ciclo de "ReAct" (Razonamiento y Acción) directamente en las capacidades nativas del modelo, los desarrolladores pueden eliminar miles de líneas de código de orquestación.

Esto se traduce en mayor fiabilidad, menor latencia y mucho menos tiempo de ingeniería dedicado a hacer de niñera en los ciclos de la IA. Por primera vez, podemos delegar con confianza un objetivo de alto nivel ("Refactoriza este directorio para usar la nueva librería de logs") y confiar en que el modelo gestionará las microdecisiones: encontrar los archivos, aplicar los cambios, ejecutar el linter y solucionar los errores de sintaxis resultantes.

#Implicaciones técnicas

Desde un punto de vista arquitectónico, adoptar Gemini 3.5 requiere que replanteemos cómo interactuamos con la API. Echemos un vistazo a algunos de los cambios técnicos que tendrás que tener en cuenta.

#1. Capacidades declarativas de alto nivel

En lugar de definir microfunciones para cada posible acción atómica, ahora puedes dotar a Gemini 3.5 de capacidades mucho más amplias. La API introduce entornos con soporte nativo (como el acceso al sistema de archivos o la ejecución de comandos en la terminal) que puedes aislar de forma segura usando un sandbox.

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

// The new agentic paradigm
const response = await ai.models.executeTask({
  model: 'gemini-3.5-pro',
  objective: 'Migrate the legacy CSS files in /styles to Tailwind classes in the React components.',
  sandbox: {
    type: 'local_container',
    permissions: ['read_write_workspace', 'run_tests']
  },
  config: {
    maxAutonomousTurns: 15,
    onRequiresApproval: (plan) => console.log("Approval needed for:", plan)
  }
});

// The response contains the full trail of actions taken, not just text.
console.table(response.actionTrail);

#2. Reducción drástica de round-trips de tokens

Antes, una acción de 5 pasos requería 5 peticiones HTTP distintas al endpoint de inferencia, enviando en cada ocasión la enorme ventana de contexto acumulada. La ejecución con estado (stateful) de Gemini 3.5 significa que ahora solo haces una petición. El modelo maneja los pasos de razonamiento intermedios de forma interna, devolviendo únicamente el resultado final (o pausando la ejecución cuando se topa con un límite que requiere tu aprobación). Esto es una victoria enorme en términos de costes y latencia.

#3. Fallbacks deterministas

Una de las proezas técnicas más impresionantes detalladas en el lanzamiento es la capacidad del modelo para recurrir de forma transparente a fallbacks deterministas. Si un objetivo es demasiado ambiguo, Gemini 3.5 generará automáticamente una pregunta de aclaración muy específica en lugar de ponerse a adivinar y destruir el estado actual.

#Qué sigue para Ichiban Tools

Ya estamos experimentando con los endpoints de acceso anticipado. Puedes dar por hecho que muy pronto verás a Gemini 3.5 profundamente integrado en todo el ecosistema de Ichiban Tools:

Mejoras en la CLI: Nuestras herramientas de línea de comandos (CLI) pasarán de ser asistentes de un solo turno a convertirse en agentes autónomos. Podrás pedirle a la CLI que "diagnostique y arregle el fallo de compilación en Webpack", y esta investigará los logs, ajustará las configuraciones y verificará la solución por sí sola.
Editores más inteligentes: Nuestros flujos de trabajo de PDF, audio y vídeo soportarán macrocomandos. En lugar de aplicar manualmente 10 filtros o ediciones diferentes, podrás darle directivas de alto nivel ("Normaliza el audio, recorta los silencios y genera marcadores de capítulos") y simplemente ver cómo se ejecuta el trabajo.

#Conclusión

El lanzamiento de Gemini 3.5 es el pistoletazo de salida para la era agéntica. Estamos dejando atrás la fase de la IA como una simple novedad conversacional o un motor de autocompletado avanzado. La IA ahora es un participante activo en el ciclo de vida de la ingeniería: un sistema capaz de tomar acción, recuperarse de los fallos y llevar las tareas hasta su finalización.

Es hora de dejar de escribir código repetitivo (boilerplate) para orquestar la IA y empezar a construir herramientas de verdad. La frontera está abierta. Manos a la obra.