百川智能发布新一代医疗大模型幻觉率降至2.6%

问题：医疗大模型进入临床与教学场景，核心挑战之一是如何“可信”与“可用”之间取得平衡。医学场景对错误信息极为敏感，一旦模型给出不准确结论或引用不实来源，可能误导决策，带来安全风险与合规隐患。近期行业普遍尝试引入循证框架、可解释引用与评测体系，降低“幻觉”和不确定性输出，让模型从“能回答”走向“回答有依据”。原因：从技术路径看，医疗知识更新快、专业概念密集、证据层级复杂，模型在训练数据分布、推理链条和引用生成机制上容易产生偏差。如果缺少系统的循证约束，模型在信息不完整或证据不足时，可能凭借语言生成能力给出看似合理却缺乏支撑的结论。为应对这个问题，百川智能在M3 Plus中引入并强化循证范式，将多来源证据约束纳入训练与推理过程，并通过“证据锚定”将生成内容与原始论文的证据段落建立对应关系，从机制上压缩“无证据推断”的空间。同时，企业提出在引用环节引入奖励与惩罚机制，对错误引用进行约束，提升引文与结论匹配的稳定性。影响：一上，企业公布的指标显示其降低事实性幻觉上有所进展：M3 Plus幻觉率降至2.6%，并称结论与证据段落匹配准确率超过95%。若上述指标能更多公开基准与真实场景中得到验证，将有助于提升医疗大模型在临床辅助、质控审阅、病例学习等环节的可用性与信任度。另一上，免费开放API有望降低医疗机构与行业服务商的试点成本，推动工具在基层与专科场景的落地探索。但也需要看到，能力提升并不意味着可以替代专业判断，尤其在复杂合并症、罕见病、用药禁忌等情境下，仍需严格的人机协同流程与风险控制。对策：面向医疗机构与行业应用方，下一阶段关键是把技术进步转化为可审计、可管理的应用体系。其一，建立与临床流程相匹配的使用边界，明确模型主要用于信息检索、证据提示、初筛与教学辅助等环节，避免在监管条件不足时直接进入诊疗决策闭环。其二，推进证据链管理与质量控制：对引用文献的来源、版本与时效性进行统一治理，并结合本地指南、药品说明书与院内规范，构建可追溯的知识底座。其三，完善评测与准入：除幻觉率等通用指标外，还需纳入安全性、偏差、可解释性、真实世界任务成功率等维度，并通过分科室、分场景的持续评测实现动态迭代。其四，强化合规与隐私保护，确保数据处理、接口调用、日志留存与权限控制符合涉及的法律法规与行业规范。前景：从产业趋势看，医疗大模型竞争正从“参数规模”转向“证据能力、可靠性与场景闭环”。“证据锚定”等技术路线反映出行业对可追溯、可验证输出的迫切需求。随着更多机构开展试点，模型有望继续融入医学教育、指南学习、文献综述与科研辅助等领域，形成“证据—结论—审阅”的一体化工作流。同时，行业也需警惕指标宣传与实际效果之间的差距，通过第三方评测、公开透明的验证机制与多中心应用反馈，避免单一指标被过度解读。

医疗人工智能正从技术验证走向临床可用阶段，准确性与可信度日益成为关键；百川智能此次在循证机制与开放策略上的推进，为行业提供了新的思路与可参考的路径。未来，如何在技术创新、伦理要求与监管边界之间取得平衡，仍需要产学研各方持续探索。

百川智能发布新一代医疗大模型 幻觉率降至2.6%

百川智能发布新一代医疗大模型幻觉率降至2.6%