3月24日,中科院发布了一个叫“术影”的手术视频大模型,它算是一个“数字助手”,能看懂医生的操作。咱们以前用AI,大多只是让它认认图,也就是告诉我们画面里有啥。可现在不一样了,“术影”能真正理解医生在干啥,器械怎么配合,操作规不规范。它用3658小时的真实手术视频训练出来的,能处理13种器官、6类手术任务,国际上的17项测试它全是第一。这模型基于V-JEPA架构,还搞了三个新花样,让AI第一次能看懂手术视频里的动态故事。第一个是运动引导的隐空间预测,模型自动盯着关键动作和高层意思看,比如器械和组织怎么细磨细算地互动,手术步骤怎么顺溜衔接。第二个是特征多样性保持,训练的时候非要保留各种各样的特征,好把手术场景里的小变化和异常给抓出来。第三个是模型稳定性保持,通过动态调整学习策略来保证长视频理解时不乱套。这三样革新凑一块儿,就构成了能读懂医生背后意图和逻辑的视觉感知底座,这就给手术AI的“GPT时刻”铺好了路。 它能干啥?说白了就是当医生的智能助手。新手医生能跟着它学,老医生能拿它复盘检查,医院还能用它评估一下技术水平。关键是它已经开源了,全球医疗团队都能免费用。研发团队说得很明白:AI是来帮忙的,不是来抢医生饭碗的。咱们医生的决策权永远都在手里头。科技进步这事儿吧,从来都不是让人下岗的事儿,而是为了让人做得更好。