Hark 斩获 7 亿美元 A 轮融资:揭秘其打造神秘“通用型” AI 接口的野心

#引言
人工智能领域正在经历一场巨大的范式转变。在过去的几年里,整个行业都极度聚焦于基础层——训练越来越庞大的语言模型,并通过对话式聊天界面将其提供给用户。然而,标准聊天框的局限性正日益显现。用户不再仅仅满足于一个只能用文本回答问题的“先知”,他们更渴望一个智能体(Agent),能够横跨整个数字环境,自主执行复杂的多步骤操作。
这时,Hark 登场了。这家雄心勃勃的 AI 初创公司此前一直处于隐秘模式(Stealth Mode),但最近却掷地有声地宣布了高达 7 亿美元的 A 轮融资。Hark 并非只是在构建另一个基础模型 API 或一层简单的“套壳”应用。他们的目标直指人机交互的终极形态:通过整合自研多模态模型与定制消费级硬件的垂直技术栈,打造一个“通用型” AI 接口。
#事件回顾
即便是在资金极其充裕的 AI 创投圈,这次 A 轮融资的规模也是极其罕见的。这笔 7 亿美元的巨额注资,几乎在一夜之间将 Hark 的估值推高到了惊人的 60 亿美元。
Hark 由 Brett Adcock 创立,他此前在 Figure AI(人形机器人)和 Archer Aviation(eVTOL 飞行器)等项目中,已经证明了自己攻克硬核工程难题的能力。Hark 此次集结了一支实力强劲的投资者联盟。本轮融资由 Parkway Venture Capital 领投,参投方不仅包括 Nvidia、AMD Ventures、Intel Capital 和 Qualcomm Ventures 等芯片巨头,还有企业级软件巨头 Salesforce Ventures。
该公司的推进速度极快。目前,他们已经运营着一个配备了顶级 Nvidia B200 GPU 的私有数据中心,用于训练其自研的多模态模型。在人才方面,Hark 已经悄然建立了一支由约 70 名工程师、研究员和设计师组成的团队,据传他们还直接从苹果公司挖来了核心的设计主管。
#核心意义
要理解为什么这是一件大事,我们必须审视当前 AI 工具链的碎片化现状。如今,如果你想让 AI 分析一份电子表格、根据数据起草一封电子邮件,并更新团队的项目管理软件,通常你自己就是那个“集成层”。你充当着桥梁的角色,在孤立的应用程序之间不停地复制和粘贴上下文。
Hark 对“通用型” AI 接口的愿景,是打造一个旨在打破浏览器标签页限制的 Agent 式个人助手。通过掌控全栈技术——既包括软件(多模态基础模型),也包括硬件,Hark 正试图完全绕过传统操作系统的种种限制。
众多半导体巨头的深度参与是这里最大的信号。当 Nvidia、AMD、Intel 和 Qualcomm 扎堆投资同一个 A 轮项目时,这表明硬件组件绝不是后知后觉的补充或营销噱头,而是其核心的差异化优势。这暗示了一种混合计算架构:重度的认知推理在 Hark 的 B200 云端集群上完成,而实时的感知输入和即时执行则由专用的边缘设备在本地处理。
#技术挑战与启示
从工程角度来看,构建一个真正通用的 Agent 接口是一项巨大的挑战。这需要解决机器学习和分布式系统领域的多个复杂难题。
#1. Zero-Shot UI 导航
传统的自动化严重依赖脆弱的 DOM 选择器、死板的 XPath 或显式的软件 API。而通用接口必须像人类一样:通过视觉来与软件进行交互。这需要强大的视觉-语言-动作(Vision-Language-Action, VLA)模型,它必须能够快速解析屏幕上的像素,理解不同操作系统下任意 UI 元素的语义,并在不需要任何后端 API 的情况下,生成精确的基于坐标的动作(如点击、滑动、键盘输入)。
#2. 上下文窗口 vs. 持续状态感知
一个驻留在专用硬件设备上的 Agent,需要持续维持用户数字生活的环境上下文。这不仅仅是扩大上下文窗口(Context Windows)那么简单。它意味着一套复杂的记忆架构——极有可能利用高度优化的向量数据库进行语义检索,并结合活跃的工作记忆(Working Memory),以追踪长达数天或数周的异步、多步任务。
#3. 分布式 Agent 架构
我们可以构想一下通用硬件接口对延迟的极度苛刻要求。如果设备为了确认识别到了一个 UI 按钮,都需要去云端集群跑一个完整的网络来回(Round-trip),那用户体验绝对是灾难性的。
| 架构层 | 核心职责 | 计算特征 | 预期延迟 |
|---|---|---|---|
| 边缘设备(硬件) | 传感器输入(音频/视觉)、UI 渲染、唤醒词检测、即时安全防护。 | NPU 优化、低功耗 | < 50ms |
| 本地 OS Agent | 屏幕解析、无障碍 API 注入 (API Hook)、本地状态管理与动作执行。 | 受限于 CPU/GPU | ~ 100ms - 300ms |
| 云端大脑 (B200s) | 复杂推理、深度语义搜索、多步规划、重度 LLM 推理。 | 高吞吐量、分布式计算 | 500ms+ |
为了实现这种无缝的交接体验,Hark 的工程师很可能会在模型量化(Model Quantization)上投入大量精力,将性能强劲的小语言模型(SLMs)推向边缘端,并严格将他们的旗舰多模态模型保留用于复杂的认知路由计算。
#未来展望
Hark 公开的路线图异常激进。该公司计划在今年夏天推出首批多模态模型,而其专属的定制硬件设备也将在不久后紧随其后发布。
众所周知,消费级硬件的交付是一块极难啃的骨头。供应链物流、散热限制、电池续航瓶颈以及实体工业设计等环节,带来了纯软件初创公司永远无需面对的巨大障碍。然而,在前苹果设计高管的掌舵以及 7 亿美元充足弹药的支持下,Hark 比行业内几乎任何人都更有底气去迎接这项挑战。
#结语
Hark 斩获的 7 亿美元 A 轮融资绝不仅仅是一个资金层面的里程碑;它更是一份野心勃勃的宣言。“文本进、文本出”(Text-in, text-out)的传统 AI 时代正迅速趋于成熟,而打造终极的、以行动为导向(Action-oriented)且硬件原生的 Agent 竞速赛,已经正式打响。
在 Ichiban Tools,我们深知开发者的工作流完全由我们所依赖的接口和平台所决定。如果 Hark 成功为 Agent 建立了全新的通用硬件接口,它改变的将不仅是消费者与技术的交互方式——它还将从根本上重写软件工程师未来设计、集成和构建应用程序的底层规则。我们将密切关注他们即将在今年夏天发布的新成果。