百川智能开源了新一代医疗大模型baichuan-m3,在国际权威的healthbench 评测中拿到了65.1分的

1月13日这天,我国科研团队有了大动静。百川智能开源了新一代医疗大模型Baichuan-M3,在国际权威的HealthBench评测中拿到了65.1分的好成绩,把全球第一名的宝座给拿下了。最让人意外的是,在那个专门考复杂医学决策能力的Hard子项里,M3居然得了44.4分,不仅超过了ChatGPT Health、Claude这些国际模型,更是把美国的GPT-5.2给比了下去。这不仅仅是个排名的事,数据显示M3的医疗幻觉率已经降到了3.5%,这是目前全世界最低的数字了。以前咱们说的“幻觉”,就是AI生成不准甚至瞎编的信息,这会给病人带来危险。百川智能通过创新训练方法,把要讲真话这个规矩提前写进了模型里,让它在学习的时候就记住了“知道就知道,不知道就说不知道”,这样就不用再靠外部的校验系统了。还有个更厉害的地方是,M3现在有了那种像老医生一样的问诊本事。以前大家聊天式的交互不行,M3能主动提问,一层一层地把病人的碎碎念里的关键病史和风险点都给挖出来,再根据这些完整信息做深度推理。评测结果显示,它的问诊水平已经比真人医生的平均值还要高了。 百川智能的老板王小川在发布会上说:“搞医疗AI的难点在于病人很难说得特别清楚,而传统的模型只会干巴巴地回答。我们的核心是让模型自己养成必须搞清楚关键信息的思维习惯。”这背后是他们对Scaling Law技术路径的深刻理解。在过去的五个月里,他们把强化学习系统升级成了全动态验证体系,通过不停细化的反馈信号推着模型的能力往上走。 OpenAI刚放出了ChatGPT Health,Anthropic也推出了Claude for Healthcare,咱们国产的模型不仅在评测里赢了,还坚持开源这条路,这就给全球医疗AI的发展提供了新的能量。专家分析说,M3的突破主要在三个方面:一是把安全的理念融进了模型里;二是真的实现了像看病那样的互动;三是综合性能比国外的强。这说明咱们在这方面已经从跟着别人走到了一起跑甚至领头的阶段了。 王小川还强调说:“医疗AI的主战场不在医院里替医生干活,而在外面帮老百姓做决定。我们的目标是让老百姓的健康素养更高,让好的医疗资源都能惠及大众。”这个思路跟“健康中国2030”规划里的共建共享、全民健康特别契合。 这次咱们取得这么好的成绩,不光展示了咱们在AI领域的硬实力,还给全球医疗健康的数字化转型提供了中国方案。随着技术越来越成熟和开源生态越来越好,AI肯定能在提高看病的便利性、优化资源分配、管好大家的健康这些方面起到更大的作用。 不过以后还得好好琢磨琢磨,怎么在保证安全的前提下让技术和看病深度结合。这就需要产业界、学术界还有监管部门一起努力去探索了。