Gemini 3.5: 智能体执行时代已然来临

在过去的几年里,软件工程界几乎把所有的注意力都放在了“生成”上。我们构建了复杂的流水线,通过提示词让 LLM 编写代码、生成文本以及总结日志。但任何一个曾与复杂的 LangChain 实现或脆弱的自定义执行循环作过斗争的资深工程师都会告诉你:生成文本 并不等于 真正把事办成。
今天,Google 宣布推出 Gemini 3.5: frontier intelligence with action,成功填补了这一鸿沟。这次发布不仅仅是简单的参数量提升或是上下文窗口的微调,而是一次向原生智能体(Agentic)行为彻底演进的底层架构变革。
在 Ichiban Tools,我们的日常工作就是构建为开发者节省时间的实用工具,并且已经将 LLM 深度整合到了我们的工作流中。随着 Gemini 3.5 的到来,范式发生了根本性的转变:从 我们编排 AI 变成了 AI 编排工作流。
#发生了什么
Google 推出的 Gemini 3.5 系列,主打“知行合一”(intelligence with action)。虽然此前的 Gemini 版本(例如 1.5 Pro)引入了庞大的上下文窗口和惊艳的多模态能力,但它们在很大程度上仍需要开发者来管理执行状态。如果模型需要搜索数据库、读取文件并做出决策,你的应用代码就必须去处理每一次函数调用(Function Call),解析 JSON,然后不断地将上下文重新交还给模型。
Gemini 3.5 引入了内置的执行引擎。如今,该模型已具备长周期规划和自主使用工具的能力。此次发布的核心亮点包括:
- 原生的多步工具编排: 模型可以调用工具、评估结果并决定下一步行动,而在这些步骤之间,不再需要将控制权交还给宿主应用。
- 面向行动的上下文缓存: 状态会在“行动循环(action loop)”中被内部维护,这大幅降低了复杂的多轮智能体工作流中的延迟和 Token 开销。
- 增强的故障恢复能力: 如果工具调用失败(例如 API 返回 404,或者 Shell 命令抛出语法错误),经过专门训练的 Gemini 3.5 会像人类工程师一样,自主读取错误信息、调整参数并重试。
#为什么这很重要
如果你正在构建开发者工具或内部平台,你一定体会过脆弱的 AI 工作流带来的痛点。你通过提示词让模型执行任务,给它一堆函数,然后祈祷它千万别在关键参数上产生幻觉,也别陷入无休止的 API 调用失败死循环里。
Gemini 3.5 改变了构建智能体软件的成本结构。通过将“ReAct(推理与行动)”循环直接内化为模型的原生能力,开发者可以毫不费力地删掉成千上万行的编排代码。
这意味着更高的可靠性、更低的延迟,以及工程师们不用再把大把时间花在当 AI 循环的“保姆”上。这是我们第一次可以充满信心地抛出一个高层级的目标(例如:“重构这个目录,使用新的日志库”),并相信模型能够妥善处理各种微观决策:查找文件、修改代码、运行 Linter 工具,并修复随之产生的语法错误。
#技术影响
从架构的角度来看,接入 Gemini 3.5 需要我们重新思考与 API 交互的方式。让我们来看看你需要考虑的几个技术转变。
#1. 高层级的声明式能力
你不再需要为每一个可能的原子操作定义微函数(micro-functions),现在你可以赋予 Gemini 3.5 更广泛的能力。该 API 引入了原生支持的环境(比如文件系统访问或 Shell 执行),你可以在安全的沙盒中运行它们。
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
// The new agentic paradigm
const response = await ai.models.executeTask({
model: 'gemini-3.5-pro',
objective: 'Migrate the legacy CSS files in /styles to Tailwind classes in the React components.',
sandbox: {
type: 'local_container',
permissions: ['read_write_workspace', 'run_tests']
},
config: {
maxAutonomousTurns: 15,
onRequiresApproval: (plan) => console.log("Approval needed for:", plan)
}
});
// The response contains the full trail of actions taken, not just text.
console.table(response.actionTrail);
#2. Token 往返消耗的急剧减少
以前,一个 5 步的操作需要向推理端点发送 5 次独立的 HTTP 请求,并且每次都要传递庞大且不断积累的上下文窗口。而 Gemini 3.5 的有状态执行意味着你只需要发起 一次 请求。模型会在内部处理中间的推理步骤,只返回最终结果(或者在触及需要审批的边界时暂停让出控制权)。这在成本和延迟优化上是一个巨大的飞跃。
#3. 确定性的后备降级策略
此次发布中详细描述的最令人印象深刻的技术壮举之一,是该模型能够无缝地切换到确定性的后备降级策略(Deterministic Fallbacks)中。如果一个目标过于模糊,Gemini 3.5 会自动生成一个有针对性的澄清问题,而不是盲目猜测并破坏现有状态。
#Ichiban Tools 的下一步计划
我们已经在使用早期访问(Early Access)的端点进行实验了。很快,你就会看到 Gemini 3.5 被深度集成到整个 Ichiban Tools 生态系统中:
- CLI 功能增强: 我们的 CLI 工具将从单轮助手转变为自主型智能体。你可以直接要求 CLI “诊断并修复 Webpack 构建失败问题”,它就会完全独立地调查日志、调整配置并验证修复结果。
- 更智能的编辑器: 我们的 PDF、音频和视频工作流将支持宏命令。你无需再手动应用 10 种不同的滤镜或编辑操作,只需下达高层级指令(例如“对音频进行归一化处理、剪掉无声片段并生成章节标记”),然后看着它自动执行即可。
#结语
Gemini 3.5 的发布是智能体时代正式开启的发令枪。我们将彻底告别将 AI 视作聊天新玩具或简单代码补全引擎的阶段。AI 现在是工程生命周期中积极的参与者——一个能够采取行动、从失败中恢复并推动任务完成的系统。
是时候停止编写那些样板式的 AI 编排代码,开始构建真正的工具了。新世界的大门已经敞开。让我们开始干活吧。