我国医疗大模型技术实现全球领跑 百川智能开源系统问诊能力突破行业瓶颈

当前全球AI医疗竞争进入新的发展阶段。

继OpenAI发布ChatGPT Health、Anthropic推出Claude for Healthcare后,百川智能推出的Baichuan-M3在医疗AI领域取得重要突破,这反映出生成式AI在医疗应用中的能力边界正在不断拓展。

从评测成绩看,Baichuan-M3在HealthBench综合评测中以65.1分位列全球第一,在考验复杂决策能力的HealthBench Hard评测中以44.4分夺冠,刷新了该评测的最高分纪录。

这一成绩意味着该模型在医学推理、诊疗决策支持等核心能力上达到了新的水平。

相比之下,百川智能在2025年8月发布的M2版本在HealthBench Hard上仅获34.7分,五个月内的进步幅度达到近30%,体现了技术迭代的加速度。

医疗AI应用中最突出的问题是"幻觉"现象。

在一般应用场景中,模型的虚构信息可能只影响用户体验,但在医疗领域则可能导致严重的安全事件,直接威胁患者生命健康。

Baichuan-M3将医疗幻觉率控制在3.5%,达到全球最低水平,这一成就来自于对训练方法的根本性创新。

百川智能采取了将幻觉抑制前移至模型训练阶段的策略。

在强化学习过程中,将医学事实一致性作为核心训练目标,将"知之为知之,不知为不知"的原则直接融入模型能力形成过程。

这种方法将医学事实可靠性内化为模型的基础能力,使其在不依赖外部检索系统或工具的纯模型设置下,仍能基于自身医学知识进行稳定、可信的作答。

这一训练范式的创新重构了医疗AI的可信度基础。

强化学习技术的升级是实现这一突破的关键。

百川智能在M2发布后的五个月内,将原本以患者模拟器和静态评分标准为主的半动态反馈系统,升级为随模型能力不断演进的全动态验证系统。

随着监督信号持续变细、变难,模型不断突破能力上限,最终在复杂医学问题上实现了性能跃迁。

这体现了当前AI技术发展中强化学习作为"新一代Scaling Law的技术中轴"的重要地位。

端到端问诊能力是Baichuan-M3最重要的创新突破。

在医疗实践中,患者往往难以完整、准确地表达自己的病症,这给医学诊断带来困难。

传统做法是通过提示词如"你是一位经验丰富的医生"来激活模型的角色扮演,但这种方式只是诱导模型的表演行为,而非内生能力。

Baichuan-M3突破了这一局限,具备了像医生一样主动追问、逐层逼近的能力,能够把关键病史和风险信号问出来,进而在完整的信息基础上进行深度医学推理。

评测显示,其问诊能力显著高于真人医生的平均水平,这标志着AI在医疗信息采集环节的能力已经超越人类平均水平。

从应用前景看,百川智能创始人、CEO王小川指出,医疗AI的未来在院外,核心是提升患者决策权而非替代医生。

这一判断反映了对医疗AI应用方向的深刻认识。

在院外场景中,患者需要更好的健康管理工具和决策支持,而不是医生的替代品。

通过赋予患者更完整的医学信息和更好的决策支持,AI可以在预防、健康管理、患者教育等环节发挥重要作用,这是医疗AI应用的广阔空间所在。

Baichuan-M3的开源发布也具有重要意义。

开源模式能够加速行业生态建设,让更多开发者和医疗机构参与到医疗AI的应用创新中,推动技术成果的广泛转化。

这对于推动医疗AI从实验室走向临床应用具有重要促进作用。

医疗智能化的意义,不在于制造“万能医生”,而在于把专业知识以更可及、更可控的方式送达公众。

面向未来,技术进步需要与安全底线同频,创新速度需要与制度建设并行。

只有在边界清晰、责任明确、评估透明的前提下,医疗大模型才能真正成为提升健康服务效率与质量的可靠工具,推动院外健康管理与分级诊疗体系不断完善。