ai能看懂手术视频里的“gpt 时刻”

3月24日，中科院发布了一个叫“术影”的手术视频大模型，它算是一个“数字助手”，能看懂医生的操作。咱们以前用AI，大多只是让它认认图，也就是告诉我们画面里有啥。可现在不一样了，“术影”能真正理解医生在干啥，器械怎么配合，操作规不规范。它用3658小时的真实手术视频训练出来的，能处理13种器官、6类手术任务，国际上的17项测试它全是第一。这模型基于V-JEPA架构，还搞了三个新花样，让AI第一次能看懂手术视频里的动态故事。第一个是运动引导的隐空间预测，模型自动盯着关键动作和高层意思看，比如器械和组织怎么细磨细算地互动，手术步骤怎么顺溜衔接。第二个是特征多样性保持，训练的时候非要保留各种各样的特征，好把手术场景里的小变化和异常给抓出来。第三个是模型稳定性保持，通过动态调整学习策略来保证长视频理解时不乱套。这三样革新凑一块儿，就构成了能读懂医生背后意图和逻辑的视觉感知底座，这就给手术AI的“GPT时刻”铺好了路。它能干啥？说白了就是当医生的智能助手。新手医生能跟着它学，老医生能拿它复盘检查，医院还能用它评估一下技术水平。关键是它已经开源了，全球医疗团队都能免费用。研发团队说得很明白：AI是来帮忙的，不是来抢医生饭碗的。咱们医生的决策权永远都在手里头。科技进步这事儿吧，从来都不是让人下岗的事儿，而是为了让人做得更好。