百川智能开源医疗大模型M3多项评测全球第一

2026-01-26

摘要：2026年1月，百川智能发布并开源新一代医疗增强大模型Baichuan-M3。该模型在OpenAI主导的HealthBench及其困难子集上取得了全球最高综合成绩，超越了GPT-5.2，并实现了当前最低的医疗幻觉率。在模拟全流程临床能力的SCAN-bench评测中，M3在病史采集、辅助检查和诊断等核心指标上均位列第一。该模型首次具备了原生的“端到端”严肃问诊能力，其问诊表现超过了真人医生的平均水平。此次发布标志着医疗大模型从对话表达向支撑完整诊疗流程和参与医疗决策的能力演进。

线索：投资机会：百川M3在核心评测中的领先表现，尤其是在模拟真实临床决策流程的SCAN-bench中展现的能力，表明其在严肃医疗辅助决策领域建立了显著的技术壁垒。这为AI在医疗诊断支持、基层医疗赋能、医生工具等高风险、高价值场景的规模化落地提供了可能性。若其开源策略能构建起活跃的开发者生态，可能加速其在医院、诊所及健康管理平台中的集成与应用。潜在风险：医疗AI的应用面临极高的监管、伦理和责任门槛。模型性能虽在评测中领先，但在真实、复杂且个性化的临床环境中其有效性与安全性仍需长期、严格的实践验证。商业化路径漫长，需应对数据隐私、医疗责任界定、医保支付等多重挑战。此外，国际巨头如OpenAI、Anthropic已加速进入该赛道，行业竞争将急剧加剧，技术领先优势能否持续转化为市场优势存在不确定性。

正文：

2026年1月，百川智能发布并开源了新一代医疗增强大模型Baichuan-M3。

在权威医疗评测方面，该模型取得了多项突破。在OpenAI主导的医疗评测集HealthBench及其困难子集HealthBench Hard上，M3取得了全球最高综合成绩，并显著超越了GPT-5.2。其中，在HealthBench Hard子集上，M3以44.4分的成绩夺冠。在评估模型生成内容事实准确性的医疗幻觉率测试中，M3在无外部工具辅助的条件下达到了当前最低水平。此外，在聚焦全流程临床能力的SCAN-bench评测中，M3在病史采集、辅助检查和诊断等多个核心指标上均位列首位。

M3的核心能力升级体现在首次具备了原生的“端到端”严肃问诊能力。该模型能够模拟医生进行主动追问、逐层深入，以获取关键病史和风险信号，并在完整信息基础上进行深度医学推理。评测显示，其问诊能力显著高于真人医生的平均水平。这标志着医疗大模型的能力重点，从提供专业对话和回答，转向了支撑完整的诊疗流程并参与医疗决策。

行业分析指出，医疗大模型的评价标准正在演变。此前，HealthBench为医疗AI能力提供了重要的公共量化评估标准。然而，随着AI医疗产品纷纷落地，行业需求超越了知识问答，转向模型能否进入真实医疗决策流程。临床决策始于不完整且混乱的信息，关键在于“如何提问”以识别信息优先级和风险。为此，百川联合150多位一线医生，借鉴医学教育中的OSCE方法，构建了SCAN-bench评测体系。该体系将诊疗过程拆解为病史采集、辅助检查和精准诊断三大阶段，通过动态多轮考核模拟从接诊到确诊的全过程，旨在评估模型的完整临床流程能力。

技术实现上，百川通过多项工程创新推动能力闭环。首先，采用了全动态强化学习系统，使验证规则能与模型能力共同进化，突破能力天花板。其次，应用了SPAR算法，通过分步惩罚机制将长链条的医疗决策拆解为可追责的局部过程，优化问诊效率。第三，引入了Fact-aware RL技术，将低幻觉作为强化学习的优化目标，使事实一致性内化为模型自身能力，并平衡推理能力与可靠性。

基于上述能力，M3的应用定位聚焦于高严肃性的决策支持路径，与侧重于健康咨询、科普和情绪陪伴的“泛健康”产品形成区隔。其目标是辅助医生推演诊疗思路，或帮助患者及家属系统理解医学逻辑，使模型的判断能够被纳入实际的医疗决策流程中。

回顾发展历程，百川智能在2023年大模型产业火热时，未优先选择代码、搜索等赛道，而是将医疗确定为核心方向。至2026年初，随着OpenAI发布ChatGPT Health、Anthropic推出Claude for Healthcare，国际头部厂商集体进入医疗领域。

发布时间：2026-01-16 17:38

百川智能开源医疗大模型M3多项评测全球第一

相关推荐

评论 ( 0 )

取消回复

百川智能开源医疗大模型M3多项评测全球第一

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站