微软推出视觉推理模型

IT之家报道,微软日前推出了名为 Phi-4-Reasoning-Vision-15B 的视觉推理模型。这是微软首次把“看得清”和“想得深”结合起来的大动作。别看它只是个小语言模型(SLM),但这次它被做得很有料。Phi-4-Reasoning-Vision-15B 给 AI 增加了一个视觉功能,还能根据任务自动切换推理方式。它不是单纯的看图认物,而是像一个有脑子的人,能理解图像结构,再和文字上下文结合起来推理出结论。 以前的视觉模型顶多算个“眼睛”,现在这个模型成了能思考的“脑子”。开发者用它能做出从图表分析到 GUI 自动化的各种智能应用。关键是它够聪明,你让它干什么它就干什么:需要深度推理的数学题、逻辑题,它就启动多步推理链;要是只是简单的 OCR 识别或者元素定位,它就直接输出结果降低延迟。 这个模型最适合搭配电脑智能体使用。给它一个屏幕截图和指令,它马上就能算出目标 UI 元素的具体位置坐标。其他智能体拿到这些坐标就能去点击、滚动或进行其他交互。虽然具体参数要看这张性能对比表(https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B),但确实是一款有实力的产品。