Gemini 3.5: 智能体执行时代已然来临

Hero

在过去的几年里，软件工程界几乎把所有的注意力都放在了“生成”上。我们构建了复杂的流水线，通过提示词让 LLM 编写代码、生成文本以及总结日志。但任何一个曾与复杂的 LangChain 实现或脆弱的自定义执行循环作过斗争的资深工程师都会告诉你：生成文本 并不等于 真正把事办成。

今天，Google 宣布推出 Gemini 3.5: frontier intelligence with action，成功填补了这一鸿沟。这次发布不仅仅是简单的参数量提升或是上下文窗口的微调，而是一次向原生智能体（Agentic）行为彻底演进的底层架构变革。

在 Ichiban Tools，我们的日常工作就是构建为开发者节省时间的实用工具，并且已经将 LLM 深度整合到了我们的工作流中。随着 Gemini 3.5 的到来，范式发生了根本性的转变：从 我们编排 AI 变成了 AI 编排工作流。

#发生了什么

Google 推出的 Gemini 3.5 系列，主打“知行合一”（intelligence with action）。虽然此前的 Gemini 版本（例如 1.5 Pro）引入了庞大的上下文窗口和惊艳的多模态能力，但它们在很大程度上仍需要开发者来管理执行状态。如果模型需要搜索数据库、读取文件并做出决策，你的应用代码就必须去处理每一次函数调用（Function Call），解析 JSON，然后不断地将上下文重新交还给模型。

Gemini 3.5 引入了内置的执行引擎。如今，该模型已具备长周期规划和自主使用工具的能力。此次发布的核心亮点包括：

原生的多步工具编排： 模型可以调用工具、评估结果并决定下一步行动，而在这些步骤之间，不再需要将控制权交还给宿主应用。
面向行动的上下文缓存： 状态会在“行动循环（action loop）”中被内部维护，这大幅降低了复杂的多轮智能体工作流中的延迟和 Token 开销。
增强的故障恢复能力： 如果工具调用失败（例如 API 返回 404，或者 Shell 命令抛出语法错误），经过专门训练的 Gemini 3.5 会像人类工程师一样，自主读取错误信息、调整参数并重试。

#为什么这很重要

如果你正在构建开发者工具或内部平台，你一定体会过脆弱的 AI 工作流带来的痛点。你通过提示词让模型执行任务，给它一堆函数，然后祈祷它千万别在关键参数上产生幻觉，也别陷入无休止的 API 调用失败死循环里。

Gemini 3.5 改变了构建智能体软件的成本结构。通过将“ReAct（推理与行动）”循环直接内化为模型的原生能力，开发者可以毫不费力地删掉成千上万行的编排代码。

这意味着更高的可靠性、更低的延迟，以及工程师们不用再把大把时间花在当 AI 循环的“保姆”上。这是我们第一次可以充满信心地抛出一个高层级的目标（例如：“重构这个目录，使用新的日志库”），并相信模型能够妥善处理各种微观决策：查找文件、修改代码、运行 Linter 工具，并修复随之产生的语法错误。

#技术影响

从架构的角度来看，接入 Gemini 3.5 需要我们重新思考与 API 交互的方式。让我们来看看你需要考虑的几个技术转变。

#1. 高层级的声明式能力

你不再需要为每一个可能的原子操作定义微函数（micro-functions），现在你可以赋予 Gemini 3.5 更广泛的能力。该 API 引入了原生支持的环境（比如文件系统访问或 Shell 执行），你可以在安全的沙盒中运行它们。

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

// The new agentic paradigm
const response = await ai.models.executeTask({
  model: 'gemini-3.5-pro',
  objective: 'Migrate the legacy CSS files in /styles to Tailwind classes in the React components.',
  sandbox: {
    type: 'local_container',
    permissions: ['read_write_workspace', 'run_tests']
  },
  config: {
    maxAutonomousTurns: 15,
    onRequiresApproval: (plan) => console.log("Approval needed for:", plan)
  }
});

// The response contains the full trail of actions taken, not just text.
console.table(response.actionTrail);

#2. Token 往返消耗的急剧减少

以前，一个 5 步的操作需要向推理端点发送 5 次独立的 HTTP 请求，并且每次都要传递庞大且不断积累的上下文窗口。而 Gemini 3.5 的有状态执行意味着你只需要发起一次请求。模型会在内部处理中间的推理步骤，只返回最终结果（或者在触及需要审批的边界时暂停让出控制权）。这在成本和延迟优化上是一个巨大的飞跃。

#3. 确定性的后备降级策略

此次发布中详细描述的最令人印象深刻的技术壮举之一，是该模型能够无缝地切换到确定性的后备降级策略（Deterministic Fallbacks）中。如果一个目标过于模糊，Gemini 3.5 会自动生成一个有针对性的澄清问题，而不是盲目猜测并破坏现有状态。

#Ichiban Tools 的下一步计划

我们已经在使用早期访问（Early Access）的端点进行实验了。很快，你就会看到 Gemini 3.5 被深度集成到整个 Ichiban Tools 生态系统中：

CLI 功能增强： 我们的 CLI 工具将从单轮助手转变为自主型智能体。你可以直接要求 CLI “诊断并修复 Webpack 构建失败问题”，它就会完全独立地调查日志、调整配置并验证修复结果。
更智能的编辑器： 我们的 PDF、音频和视频工作流将支持宏命令。你无需再手动应用 10 种不同的滤镜或编辑操作，只需下达高层级指令（例如“对音频进行归一化处理、剪掉无声片段并生成章节标记”），然后看着它自动执行即可。

#结语

Gemini 3.5 的发布是智能体时代正式开启的发令枪。我们将彻底告别将 AI 视作聊天新玩具或简单代码补全引擎的阶段。AI 现在是工程生命周期中积极的参与者——一个能够采取行动、从失败中恢复并推动任务完成的系统。

是时候停止编写那些样板式的 AI 编排代码，开始构建真正的工具了。新世界的大门已经敞开。让我们开始干活吧。