苹果最近搞了个Ferret-UI Lite,就是一个AI模型,专门用来查看和控制图形用户界面,这就叫GUI。这个项目由Sergio De Simone发起,明知山翻译了一下。大家都知道苹果公司的Siri嘛,这次他们是想给Siri做个“隐私保护盾”。Ferret-UI Lite就是这个意思,它把谷歌云给减少了,所以以后Siri就能在苹果设备上更加独立工作了。 跟现有的一些大型模型,比如GPT和Gemini比起来,Ferret-UI Lite只有30亿参数。这就意味着它不会像那些大模型那样复杂,也不需要太多计算资源。不过它还是挺厉害的,在屏幕图像解析、图标文本理解这些方面表现不错。无论是手机还是电脑桌面屏幕上的应用程序,Ferret-UI Lite都能看懂并且与之交互。 研究人员在他们的论文里提到过,虽然像GPT和Gemini这样的大型基础模型能做很多事情,但它们也有很多缺点:计算成本高、推理速度慢、延迟大、隐私性差还有依赖网络连接。所以他们就着手开发了一个更轻量化的端到端智能体,也就是Ferret-UI Lite。这次开发团队用了一些面向小模型的优化技术。他们还把从真实场景还有合成数据中得到的各种GUI数据集整合起来了。 为了增强推理能力,他们还结合了思维链推理和视觉工具使用。最后还使用了基于奖励设计的强化学习方法来优化性能。训练阶段分了两步走:第一阶段是用多样化的真实与合成GUI交互数据进行监督微调(SFT),第二阶段则是用带可验证奖励的强化学习(RLVR)来优化任务成功率。 研究人员发现GUI定位和导航数据可以互补使用,所以整合多样化来源的合成数据能显著提升模型在这两个任务上的表现。不过他们也发现思维链推理和视觉工具虽然有一定提升作用,但效果不是特别明显;而且小模型在长程多步骤任务上表现一般;同时这个模型还挺敏感的,容易受奖励设计影响。 总得来说吧,Ferret-UI Lite就是一个轻量化端侧智能体,它能帮苹果减少对谷歌云的依赖并且给Siri增加一层保护盾。