我国医疗大模型技术实现全球领跑百川智能开源系统问诊能力突破行业瓶颈

当前全球AI医疗竞争进入新的发展阶段。

继OpenAI发布ChatGPT Health、Anthropic推出Claude for Healthcare后，百川智能推出的Baichuan-M3在医疗AI领域取得重要突破，这反映出生成式AI在医疗应用中的能力边界正在不断拓展。

从评测成绩看，Baichuan-M3在HealthBench综合评测中以65.1分位列全球第一，在考验复杂决策能力的HealthBench Hard评测中以44.4分夺冠，刷新了该评测的最高分纪录。

这一成绩意味着该模型在医学推理、诊疗决策支持等核心能力上达到了新的水平。

相比之下，百川智能在2025年8月发布的M2版本在HealthBench Hard上仅获34.7分，五个月内的进步幅度达到近30%，体现了技术迭代的加速度。

医疗AI应用中最突出的问题是"幻觉"现象。

在一般应用场景中，模型的虚构信息可能只影响用户体验，但在医疗领域则可能导致严重的安全事件，直接威胁患者生命健康。

Baichuan-M3将医疗幻觉率控制在3.5%，达到全球最低水平，这一成就来自于对训练方法的根本性创新。

百川智能采取了将幻觉抑制前移至模型训练阶段的策略。

在强化学习过程中，将医学事实一致性作为核心训练目标，将"知之为知之，不知为不知"的原则直接融入模型能力形成过程。

这种方法将医学事实可靠性内化为模型的基础能力，使其在不依赖外部检索系统或工具的纯模型设置下，仍能基于自身医学知识进行稳定、可信的作答。

这一训练范式的创新重构了医疗AI的可信度基础。

强化学习技术的升级是实现这一突破的关键。

百川智能在M2发布后的五个月内，将原本以患者模拟器和静态评分标准为主的半动态反馈系统，升级为随模型能力不断演进的全动态验证系统。

随着监督信号持续变细、变难，模型不断突破能力上限，最终在复杂医学问题上实现了性能跃迁。

这体现了当前AI技术发展中强化学习作为"新一代Scaling Law的技术中轴"的重要地位。

端到端问诊能力是Baichuan-M3最重要的创新突破。

在医疗实践中，患者往往难以完整、准确地表达自己的病症，这给医学诊断带来困难。

传统做法是通过提示词如"你是一位经验丰富的医生"来激活模型的角色扮演，但这种方式只是诱导模型的表演行为，而非内生能力。

Baichuan-M3突破了这一局限，具备了像医生一样主动追问、逐层逼近的能力，能够把关键病史和风险信号问出来，进而在完整的信息基础上进行深度医学推理。

评测显示，其问诊能力显著高于真人医生的平均水平，这标志着AI在医疗信息采集环节的能力已经超越人类平均水平。

从应用前景看，百川智能创始人、CEO王小川指出，医疗AI的未来在院外，核心是提升患者决策权而非替代医生。

这一判断反映了对医疗AI应用方向的深刻认识。

在院外场景中，患者需要更好的健康管理工具和决策支持，而不是医生的替代品。

通过赋予患者更完整的医学信息和更好的决策支持，AI可以在预防、健康管理、患者教育等环节发挥重要作用，这是医疗AI应用的广阔空间所在。

Baichuan-M3的开源发布也具有重要意义。

开源模式能够加速行业生态建设，让更多开发者和医疗机构参与到医疗AI的应用创新中，推动技术成果的广泛转化。

这对于推动医疗AI从实验室走向临床应用具有重要促进作用。

医疗智能化的意义，不在于制造“万能医生”，而在于把专业知识以更可及、更可控的方式送达公众。

面向未来，技术进步需要与安全底线同频，创新速度需要与制度建设并行。

只有在边界清晰、责任明确、评估透明的前提下，医疗大模型才能真正成为提升健康服务效率与质量的可靠工具，推动院外健康管理与分级诊疗体系不断完善。

我国医疗大模型技术实现全球领跑 百川智能开源系统问诊能力突破行业瓶颈