苹果推出可在设备端导航应用的小型AI模型

苹果的研究人员发布了一篇论文,介绍了Ferret-UI Lite,这是一个拥有30亿参数的小型AI模型,旨在理解移动端、网页端和桌面端的应用界面并与之自主交互。尽管模型体积小巧,但在基准测试中的表现达到或超越了比其大24倍的竞争性GUI智能体,标志着AI助手朝着能够在不将数据发送到云端的情况下代替用户操作应用的方向迈出了重要一步。

这项研究最初发布在arXiv上,最近提交给了OpenReview,论文描述了一个专为设备端部署构建的端到端多模态大语言模型。Ferret-UI Lite使用思维链推理、强化学习以及视觉"放大"机制来模仿人眼聚焦细节的方式——该模型先进行粗略预测,然后裁剪并放大屏幕上的相关部分,以更精确地识别小图标和文本。

工作原理

小型AI模型面临的核心挑战是解析现代屏幕上密集、微小的元素。Ferret-UI Lite通过苹果团队所称的"推理时裁剪"技术来解决这一问题,这是一种两步法:模型首先扫描整个屏幕,然后放大到它识别为相关的区域。这使得轻量级模型能够实现通常只有在服务器上运行的大型系统才具备的视觉精度。

为了弥补高质量训练数据的不足,研究人员构建了一个合成数据生成管道,其中涉及四个AI角色——任务生成器、规划器、执行器和评判器——来模拟真实的应用交互,包括无响应点击或弹窗中断等错误情况。这种方法教会模型从错误中恢复,产生的性能比仅使用干净的人工标注数据训练更加稳健。

在标准基准测试中,Ferret-UI Lite在GUI定位任务上的得分为:ScreenSpot-V2达91.6%,ScreenSpot-Pro达53.3%,OSWorld-G达61.2%。在导航任务中,它在AndroidWorld上实现了28.0%的成功率,在OSWorld上实现了19.8%的成功率。在ScreenSpot-Pro上,它比其他30亿参数的智能体高出超过15个百分点。

对 Siri 和隐私保护的影响

这项研究恰逢苹果准备对 Siri 进行姗姗来迟的全面升级,据彭博社报道,升级版预计将随 iOS 26.4 于 2026 年春季发布。升级后的助手有望与屏幕内容进行更深度的集成,并跨应用执行基于上下文的多步骤任务。像 Ferret-UI Lite 这样能够在本地读取并操作应用界面的模型,可以为这些功能提供技术支撑。

苹果一直强调设备端处理相比依赖云端的竞争对手具有隐私优势。在本地运行 GUI 智能体意味着敏感的屏幕内容——消息、金融应用、健康数据——永远无需离开设备。

仍存在局限性

研究人员承认,虽然 Ferret-UI Lite 在处理简短、直接的 UI 任务方面表现出色,但在复杂的多步骤操作上仍然存在困难。该论文的作者之一 Zhe Gan 在 LinkedIn 帖子中指出,团队"专注于缩小规模"而非扩大规模,分享了构建"高效、强大且实用的设备端 AI 智能体"的经验。苹果是否会将这项技术整合到消费产品中尚未得到证实,但研究方向与该公司公开声明的目标高度一致——打造更强大、保护隐私的 Siri。