苹果发布Ferret-UI Lite端侧多模态模型以裁剪推理提升屏幕理解能力

在全球移动互联网应用快速演进的背景下，智能终端对复杂图形界面的自动识别与操作需求不断增加。现有方案普遍面临两大难题：一是服务器端大模型存在响应延迟与隐私风险；二是轻量级本地模型受限于算力，难以实现高精度的界面元素识别。针对这个瓶颈，苹果研发团队推出参数量约30亿的Ferret-UI Lite模型。该模型引入“推理时动态裁剪”机制，模拟人类视觉注意：先进行全局判断，再对关键区域进行定向放大处理。测试数据显示，这种分阶段策略使图标识别准确率较传统方案提升47%，文本解析错误率下降63%。

苹果Ferret-UI Lite模型的推出反映了端侧人工智能的一次重要进展。研究表明，在合理的架构设计与训练方法支持下，轻量化模型也能在特定场景中达到接近大模型的效果。这为AI在移动设备上的落地提供了清晰思路：在更好保护隐私的同时，实现更智能、更个性化的体验。随着端侧AI持续成熟，这类能力预计将成为智能手机的重要发展方向。

苹果发布Ferret-UI Lite端侧多模态模型 以裁剪推理提升屏幕理解能力

苹果发布Ferret-UI Lite端侧多模态模型以裁剪推理提升屏幕理解能力