微软推出视觉推理模型

IT之家报道，微软日前推出了名为 Phi-4-Reasoning-Vision-15B 的视觉推理模型。这是微软首次把“看得清”和“想得深”结合起来的大动作。别看它只是个小语言模型（SLM），但这次它被做得很有料。Phi-4-Reasoning-Vision-15B 给 AI 增加了一个视觉功能，还能根据任务自动切换推理方式。它不是单纯的看图认物，而是像一个有脑子的人，能理解图像结构，再和文字上下文结合起来推理出结论。以前的视觉模型顶多算个“眼睛”，现在这个模型成了能思考的“脑子”。开发者用它能做出从图表分析到 GUI 自动化的各种智能应用。关键是它够聪明，你让它干什么它就干什么：需要深度推理的数学题、逻辑题，它就启动多步推理链；要是只是简单的 OCR 识别或者元素定位，它就直接输出结果降低延迟。这个模型最适合搭配电脑智能体使用。给它一个屏幕截图和指令，它马上就能算出目标 UI 元素的具体位置坐标。其他智能体拿到这些坐标就能去点击、滚动或进行其他交互。虽然具体参数要看这张性能对比表（https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B），但确实是一款有实力的产品。