就在最近,那个专门测 AI 到底会不会干活的全球基准 ScreenSpot-Pro 火了,搞得大家伙儿都开始琢磨这事儿。这就好比以前大家都觉得大模型懂多少字特别重要,结果金智维直接拿 KV-Ground 系列杀了出来:那个8B的模型拿了全榜第一,4B的也在同规模里领先。这事儿告诉咱们一个信号:大家都在抢着往“执行力”上冲了。为啥现在企业都盯着这个看?以前咱们看图像识别、页面理解这种多模态能力就行,但在公司里光看懂可不行,得会动手才行。 ScreenSpot-Pro 测的就是这个屏幕操作能力,给个“导出报表”或者“打开高级筛选”的自然语言指令,让模型在办公软件或者设计软件里去点对按钮。这个技术叫 GUI Grounding,说白了就是教 AI 怎么去操作电脑。 跟以前那种只看静态网页截图的测试不一样,ScreenSpot-Pro 用的是全套真软件界面,覆盖了办公、开发、设计这 20 多个专业场景,任务都是人工精标的,跟企业干活特别像。这就成了看智能体能不能落地的硬指标。在这高难度的测试里,金智维的表现很扎眼——那叫一个稳。8B 模型得了 80.5 分是第一;4B 模型拿了 67 分,不仅在同类型里领先,在所有大模型里也很有竞争力。 最关键的是,这成绩不是靠死堆参数堆出来的。拿基础模型和 KV-Ground 一对比就能看出差别:界面定位精度一直在往上走,说明优化路径靠谱,不是为了考个分临时弄的。这意味着 AI 在搞复杂界面操作的时候,离能真干事儿、能大规模落地的阶段已经不远了。 为啥说“小模型”这次更有现实意义呢?在企业干活的人心里很清楚:光效果好不行,得看成本、响应速度和系统配不配得上。KV-Ground-4B 不管界面多难都能保持精度,这就说明企业不用非得买高性能的服务器,也能享受到高性能的待遇。这种能力转移直接拉低了 AI 落地的门槛。像金融报表处理、制造业的 CAD 操作、研发仿真工具这些地方,老板们更看重稳不稳和成本够不够低,而不是参数到底有多大。 小模型在这些地方适配性更强。从钱袋子的角度看,以前得靠高性能服务器撑着的活儿,现在只要用个更轻巧的机器就能干了。这直接改变了企业算投资回报比(ROI)的方式。 AI 终于补上了“能干活”的这一环,以前大模型只知道怎么理解和推理,却不会动鼠标键盘;传统的 RPA 虽然会动鼠标键盘,却太死板。这次 GUI Grounding 的突破,就是补上了这中间的断层。当 AI 能在复杂系统里自主去找按钮并操作时,就不用再依赖改系统或者开放接口了。 这对企业来说是个大好事——意味着智能体能花更少的钱嵌入现有的流程里,直接去干活而不是光出主意。这件事给整个行业也提了个醒:以后的竞争不是看谁家的参数规模大不大,而是看谁家的能力结构调得好不好。 特别在跨系统操作、流程执行这些难题上,效率和稳定性成了新的硬指标。小模型在高难度任务上的突破给大家指明了一条路:通过针对性优化在关键地方实现“以小博大”。 随着 GUI Grounding 这些底层技术变成熟,企业级的智能体马上就要从概念变成大家伙儿都在用的东西了。未来能看到的趋势有几个:一是 AI 会更深入地插进业务流程里去;二是小模型和专用模型的价值会变得更大;三是 AI 跟 RPA 的结合会越来越快。 本质上,AI 正在完成一次身份转变——以前只是“能回答问题”的顾问,现在变成了“能完成任务”的伙计。而这一步正是企业真正需要的生产力。