💡

文章摘要

百川M4以3.3%幻觉率和90.0循证精度刷新HealthBench全球第一。本文深潜事实感知强化学习训练方法、四维评估框架、竞品对比及落地挑战,揭示医疗AI从单轮问答到连续诊疗Agent的范式跃迁。

一、引言:医疗AI的「可信阈值」被首次跨过

2026 年 6 月 22 日,百川智能与清华大学联合发布 Baichuan-M4——一个在 HealthBench 三项子榜单上同时拿下世界第一的医疗增强大模型。

但真正值得关注的不是跑分本身,而是三个数字的组合:

  • 事实性幻觉率 3.3%(GPT-5.5 为 3.8%,Claude Opus 4.7 为 6.9%)
  • 循证引用精度 90.0(GPT-5.5 为 54.7)
  • Hard 子集领先第二名 15.9 分

这意味着什么?意味着医疗 AI 首次同时满足「说得对」和「说得准」两个条件——不仅能给出正确方向,还能把每一句医学结论精确对应到权威指南的具体段落。

据百川智能官方介绍,M4 的定位不是「更聪明的医疗问答机器人」,而是一个能独立完成连续诊疗的医疗智能体。从 M1 到 M4,百川做的事情只有一件:让 AI 跨过「会答题」与「会看病」之间那道最难的坎。

本文将从技术架构、评测体系、竞品对比三个维度,拆解 M4 为什么值得关注,以及它对医疗 AI 行业意味着什么。

前置阅读收获:

  • 理解 3.3% 幻觉率在医疗场景中的真实含义
  • 掌握评估医疗 AI 的四维框架:问诊 / 记忆 / 循证 / 调度
  • 看清医疗 AI 从「咨询工具」到「连续诊疗 Agent」的演进路径

💡 一句话理解

HealthBench 由 OpenAI 提出,262 名执业医生来自 60 个国家,包含 5000 段高保真多轮临床对话。它考的不是医学知识量,而是临床决策能力。

⚠️ 常见踩坑

跑分第一 ≠ 临床可用。本文关注的是 M4 的技术路线是否指向正确的方向,而非单纯排名。

二、3.3% 幻觉率:一个被严重低估的数字

先看一组对比数据,才能理解 3.3% 有多难:

场景 典型幻觉率 来源
Baichuan-M4(医疗) 3.3% 百川智能技术报告,2026-06-22
GPT-5.5(医疗) 3.8% 同口径测试
Claude Opus 4.7(医疗) 6.9% 同口径测试
DeepSeek-V4-Pro(医疗) 9.8% 同口径测试
通用模型(法律查询) 69-88% Stanford RegLab, 2024-2025
o3(人物问答) 33% OpenAI System Card, 2025-04
o1(人物问答) 16% OpenAI System Card, 2025-04

为什么法律场景的幻觉率高达 69-88%,而 M4 能做到 3.3%?

核心差异在于训练目标完全不同。通用模型被训练为「尽可能有帮助」——当信息不足时,它会用看似合理的推测填补空白。在医疗场景,这种「有帮助的冲动」是致命的。

M4 的做法是事实感知强化学习(Fact-Aware Reinforcement Learning)——在 RL 训练循环中直接嵌入事实验证模块。具体来说:

  1. 在线幻觉检测:模型每生成一个医学声明,实时与权威医学证据比对
  2. 动态奖励聚合:根据模型当前能力阶段,自适应平衡任务学习与事实约束
  3. 证据锚定(Evidence Anchoring):每句结论必须精确对应到原始论文或指南的具体段落,不是笼统标注「引自某文献」

据 arXiv 论文(2606.08982v1)描述,这套方法的关键创新在于不把幻觉当后处理问题,而是把它嵌入训练目标本身。传统 RAG 是「先说再查」,M4 是「边说边验」。

关键洞察:3.3% 不是「比 3.8% 好一点」——在医疗场景,幻觉率每降低 1 个百分点,意味着每 1000 次诊断中少 10 次事实性错误。这是安全边际的质变。

图表加载中…

💡 一句话理解

Stanford RegLab 研究显示,ChatGPT 3.5 在法律查询中幻觉率 69%,Llama 2 高达 88%。医疗场景的低幻觉率需要专门的训练方法,不能靠通用模型微调

⚠️ 常见踩坑

幻觉率 3.3% 是在 HealthBench 评测口径下的数据。实际临床部署中,幻觉率可能因病例复杂度、科室差异而上升。

三、四维评估框架:问诊 / 记忆 / 循证 / 调度

评估一个医疗 AI 不能只看一个总分。M4 的技术报告揭示了四个核心维度,每个维度对应临床诊疗的一个关键环节:

维度一:深度问诊——像临床医生一样主动追问

通用模型的问诊模式是「你问我答」——患者说「胸口闷」,模型立刻给出「可能是心脏病」。但真实临床中,「胸口闷」可能是焦虑,也可能是心梗前兆,全靠一层层追问才能分辨。

M4 的做法是主动追问症状的性质与诱因,优先识别和排查危急重症。据百川智能介绍,一个真实案例中,用户深夜脚痛,M4 配合完成了十轮问询——哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高——逐步缩小范围,怀疑急性痛风,建议前往风湿免疫科就诊。

为了量化这种能力,百川借鉴医学教育中的 OSCE(客观结构化临床考试) 方法,联合 150 多位一线医生构建了动态问诊评测体系 SCAN-bench。在这套评测中:

模型 初诊得分 复诊得分
Baichuan-M4 79.0 74.7
GPT-5.5 低于 M4 低于 M4
DeepSeek-V4-Pro 低于 M4 低于 M4
Claude Opus 4.7 低于 M4 低于 M4

维度二:全病程记忆——记住一个人,不只是一次对话

通用模型的「记忆」通常限于当前对话窗口。一旦跨越较长时间,早期的检查结果、用过的药、出现过的反应就被遗忘。

M4 推出的「全病程记忆」打通了历史病历、多轮问诊、化验趋势与用药反馈。在长上下文临床记忆评测中,M4 取得 86.9 分,较上一代 M3 提升 21.1 分,为同类最高。

这意味着什么?意味着模型不再每次从零开始——它知道患者三个月前的血尿酸值、上周的用药反应、昨天的饮食变化。记得住只是基础,因人而异才是精准医疗的前提。

维度三:循证精度——每一句结论都有据可查

M4 首创的「证据锚定」要求模型生成的每一句医学结论,都精确对应到原始论文或指南中的具体段落。依托六源循证范式,模型只在权威医学来源中检索,不从开放网络抓取资料。

在此基础上,M4 把权威指南、专家共识与真实诊疗流程拆解为标准化临床路径单元——目前已超过 1000 个、覆盖 200 余种疾病,每一条都由资深临床专家定义和校验。

在百川构建的循证医学评测 Baichuan-EBM 上:

模型 循证引用精度
Baichuan-M4 90.0
GPT-5.5 54.7
OpenEvidence 55.9

90.0 vs 54.7——这不是小幅领先,而是断层式差距

维度四:自主调度——Baichuan-Harness 智能体架构

问诊、记忆、循证彼此割裂,单项再强也拼不成一个能用的医疗系统。患者不会判断自己此刻该追问、查指南还是复盘病史。

承担这层编排的是百川面向医疗场景构建的 Baichuan-Harness——如果说 M 系列模型是医疗 Agent 的大脑,它就是调度这个大脑的中枢神经:

  • 何时追问、何时检索证据、何时调出既往病史,均由模型自主决定
  • 面对文献检索、长病史梳理等繁重任务,拆分成子任务并行处理
  • 每一步动作都在实时安全约束下完成——违规的工具调用、越权的数据访问会被当场拦下
图表加载中…

💡 一句话理解

SCAN-bench 不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。这比 MedQA 等静态题库更接近真实临床。

⚠️ 常见踩坑

四维框架是百川提出的评估体系,目前尚未经过独立第三方验证。但其方法论(OSCE 式动态评测 + 循证段落级锚定)值得行业参考。

四、竞品对比:2026 年医疗 AI 格局

M4 不是唯一的医疗 AI 玩家。2026 年,全球主要玩家的路线已经明显分化:

维度 Baichuan-M4 ChatGPT Health Claude for Healthcare 平安医疗 LLM 3.5
发布时间 2026-06-22 2026 年初 2026 年规划 2026-06-10
HealthBench 综合 68.6(第一)
HealthBench Hard 领先 GPT-5.5 达 15.9 分 57.27(4 月数据)
幻觉率 3.3% 未公开
循证精度 90.0 未公开
开源 是(Apache 2.0 预期)
连续诊疗能力 ✅ 全病程记忆 ✅ 健康档案 规划 部分
多模态 ✅ X光+皮肤科 多模态 多模态 未公开
核心路线 医疗 Agent 系统 消费级健康助手 企业级医疗平台 保险+医疗闭环

几个关键观察

1. 百川 vs 平安:中国医疗 AI 的两条路线

平安医疗 LLM 3.5 在 2026 年 4 月曾以 HealthBench Hard 57.27 分排名全球第一。但 M4 在 6 月将这一格局彻底改写——不仅 Hard 子集大幅领先,综合分更是拉开 10+ 分差距。

更重要的是,两家路线完全不同:平安走的是保险+医疗闭环(用 AI 控费),百川走的是独立医疗 Agent(让 AI 直接看病)。M4 的 Baichuan-Harness 架构更像是一个「AI 全科医生」,而平安的模型更像是「保险公司的智能审核员」。

2. 百川 vs OpenAI/Anthropic:开源 vs 闭源的关键差异

M4 的前代 M3 以 Apache 2.0 开源,这意味着医疗机构可以本地部署——患者数据不出院。这在医疗场景中是刚需:中国《个人信息保护法》和《医疗健康数据安全指南》对患者数据的本地化存储有严格要求。

GPT-5.5 和 Claude Opus 4.7 虽然跑分也不错,但闭源 + 云端调用的模式在合规性上天然劣势。

3. 幻觉率的「同口径」对比才有意义

M4 的 3.3% 幻觉率是在 HealthBench 评测口径下的数据。需要注意:

  • 同一评测中 GPT-5.5 为 3.8%——差距只有 0.5 个百分点
  • 但在循证精度上,M4(90.0)vs GPT-5.5(54.7)的差距是35.3 分
  • 这说明 M4 不仅「说错的少」,而且「说对的都能给出精确来源」
图表加载中…

💡 一句话理解

平安医疗 LLM 3.5 在 2026 年 4 月 HealthBench Hard 得分 57.27,当时全球第一。M4 在 6 月发布后重新定义了天花板。

⚠️ 常见踩坑

ChatGPT Health 和 Claude for Healthcare 的医疗评测数据有限,表格中标注「—」的数据为官方未公开,不宜做定量对比。

五、技术深潜:事实感知强化学习如何工作

M4 的低幻觉率不是靠「后处理过滤」实现的,而是在训练阶段就把事实验证嵌入 RL 循环。这一方法在 arXiv 论文中有详细描述。

传统医疗 LLM幻觉问题

传统方法分两步:

  1. 模型生成回答
  2. 后处理模块检查事实性

问题在于:一旦模型已经「自信地说错了」,后处理很难纠正——因为模型自己不知道哪些声明是推测。

M4 的事实感知 RL

M4 的方法把事实验证嵌入训练循环的每一步

训练循环:

  1. 模型生成医学声明
  2. 在线幻觉检测模块实时验证(对比权威医学证据)
  3. 动态奖励聚合:任务奖励(回答是否正确)+ 事实奖励(声明是否有据可查),根据模型能力阶段自适应调整权重
  4. 更新模型参数

关键创新点:

① 在线幻觉检测——不是等回答全部生成后再检查,而是逐句验证。这类似于编译器在代码编写时就报错,而不是编译时才发现问题。

② 动态奖励聚合——在训练早期,模型能力弱,事实约束权重低(让它先学会基本推理);训练后期,事实约束权重升高(要求每句都有据可查)。这避免了「一开始就要求太严导致学不动」的问题。

③ 证据锚定输出——最终输出中,每个医学结论都标注到具体段落,不是「参考了 XX 指南」这种模糊引用。

图表加载中…
python
# 事实感知强化学习 - 奖励计算伪代码
# 基于 arXiv:2606.08982v1 描述简化

def compute_reward(model_output, authoritative_evidence, training_stage):
    """
    model_output: 模型生成的医学声明
    authoritative_evidence: 权威医学证据库
    training_stage: 训练阶段(early/mid/late)
    """
    # 任务奖励:回答是否正确
    task_reward = evaluate_clinical_accuracy(model_output)
    
    # 事实奖励:每个声明是否有据可查
    claims = extract_atomic_claims(model_output)
    fact_rewards = []
    for claim in claims:
        evidence_match = verify_against_evidence(claim, authoritative_evidence)
        # 段落级匹配,不是文献级
        fact_rewards.append(evidence_match.precision_score)
    
    fact_reward = sum(fact_rewards) / len(fact_rewards)
    
    # 动态权重聚合
    alpha = get_stage_weight(training_stage)  # 早期 0.3 → 后期 0.8
    total_reward = (1 - alpha) * task_reward + alpha * fact_reward
    
    return total_reward

💡 一句话理解

事实感知 RL 的核心思想:把幻觉当训练目标的一部分,而不是当后处理的 bug。这与 Anthropic 的 Constitutional AI 思路类似,但更聚焦于医疗场景的段落级验证。

⚠️ 常见踩坑

上述伪代码是基于论文描述的简化版本,非百川官方开源代码。实际实现可能涉及更复杂的缓存机制和在线 RL 训练架构。

六、从 M1 到 M4:百川医疗 AI 的进化路径

理解 M4 的技术选择,需要回溯百川在医疗 AI 领域的完整迭代路径:

版本 发布时间 核心突破 HealthBench
M1 2024 医疗知识微调
M2 / M2 Plus 2025-09 动态问诊 + segmented RL Hard 34.7
M3 / M3-235B 2026-02 事实感知 RL + 开源 Hard 44.4(超 GPT-5.2)
M3 Plus 2026-05 循证精度提升
M4 2026-06-22 连续诊疗 Agent + 全病程记忆 综合 68.6(第一)

关键转折点分析:

M2 → M3:从「会问诊」到「不说谎」

M2 的核心贡献是动态问诊能力——让模型学会像医生一样追问。但 M2 的幻觉率仍然较高(具体数据未公开,但论文提到 M3 的幻觉率「较 M2 降低一倍以上」)。

M3 引入事实感知 RL,把幻觉率从 M2 的水平降到 3.5%(M3 数据),同时 HealthBench Hard 从 34.7 跳到 44.4,超过 GPT-5.2-High。

M3 → M4:从「单次准确」到「连续可靠」

M3 的局限在于它仍然是一个「单轮问答模型」——每次对话独立,不记得之前的患者。M4 的突破是:

  1. 全病程记忆:打通历史病历、化验趋势、用药反馈
  2. Baichuan-Harness:把问诊/记忆/循证编排成自主调度的 Agent 系统
  3. 临床路径单元:1000+ 个标准化路径,覆盖 200+ 疾病

这意味着 M4 不再是一个「回答问题的工具」,而是一个能持续跟踪患者状态的诊疗系统

图表加载中…

💡 一句话理解

M3 以 Apache 2.0 开源(235B 参数),是第一个达到 GPT-5.2 水平的开源医疗模型。M4 预计也将开源。

⚠️ 常见踩坑

M1 的 HealthBench 数据未公开。表格中 M1 行标注「—」表示无公开数据。

七、落地挑战:跑分第一之后还有什么

M4 的跑分无可争议,但医疗 AI 的真正挑战在落地。以下是三个必须面对的现实问题:

1. 合规与准入:医疗 AI 的「最后一公里」

在中国,医疗 AI 产品需要通过 NMPA(国家药品监督管理局)的三类医疗器械审批。截至目前,没有医疗 LLM 获得独立诊断资质的先例。

M4 目前的定位是辅助诊疗——给医生提供参考建议,最终决策权在人。这在合规上是最安全的路径,但也意味着它不能替代医生独立工作。

王小川(百川智能 CEO)在 2026 年初表示,百川预计 2027 年启动 IPO。医疗 AI 的监管框架在这之前可能会进一步明朗。

2. 数据隐私:本地部署 vs 云端调用

医疗数据是最敏感的个人数据之一。M4 的开源策略(Apache 2.0)允许医疗机构本地部署——患者数据不出院。

但本地部署意味着:

  • 医院需要自建 GPU 集群(成本高昂)
  • 模型更新需要手动同步(可能滞后)
  • 多模态能力(X光、皮肤科影像)对硬件要求更高

3. 临床验证:从跑分到循证医学证据

HealthBench 是一个优秀的评测,但它不等于随机对照试验(RCT)。医疗 AI 要获得临床认可,最终需要:

  • 多中心 RCT 证明其临床价值
  • 明确的适应症范围和使用限制
  • 持续的上市后监测

百川目前尚未公布 M4 的 RCT 计划。但从其「百小医」AI 家庭医生产品的落地节奏看,商业化路径正在推进。

4. 竞争格局:大厂不会缺席

  • OpenAI 的 ChatGPT Health 已在消费级健康管理市场占位
  • Anthropic 的 Claude for Healthcare 瞄准企业级医疗平台
  • Google 的 Med-PaLM 系列有 DeepMind 的研究支撑
  • 平安 有保险+医疗的闭环生态

M4 的优势在于开源 + 低幻觉率 + 连续诊疗能力的组合。但这个优势窗口不会永远敞开——大厂一旦投入资源,追赶速度可能很快。

图表加载中…

💡 一句话理解

截至目前,中国没有医疗 LLM 获得独立诊断资质。所有医疗 AI 产品均定位为「辅助诊疗」,最终决策权在医生。

⚠️ 常见踩坑

百川预计 2027 年 IPO。医疗 AI 监管政策在 IPO 前可能出现重大变化,这是投资视角的核心风险。

八、6-12 个月趋势预判:医疗 AI 的下一步

基于 M4 的技术路线和行业格局,以下是我对 2026 年下半年到 2027 年初的五个判断:

判断一:「连续诊疗 Agent」将成为医疗 AI 的标准形态

M4 的 Baichuan-Harness 架构证明了一个重要命题:医疗 AI 不能只是单轮问答,必须能跨会话跟踪患者状态。预计 OpenAI、Anthropic 在 2026 年底前都会推出类似的连续诊疗能力。

这一判断的依据在于:一是慢病管理的需求爆发。中国有超过 4 亿慢病患者(高血压、糖尿病、慢阻肺等),需要长期、连续的用药管理和健康追踪。传统模式下,患者每 3-6 个月复诊一次,中间的用药依从性、症状变化等信息大量丢失。连续诊疗 Agent 可以填补这一空白,实现每日随访、异常预警、用药提醒等功能。二是技术成熟度达到临界点。全病程记忆、多模态感知、循证检索三大模块的整合,使得 AI 首次具备了「记住患者、理解病情、追踪变化」的能力。百川在百小医产品上的试点数据显示,使用连续诊疗功能的患者,用药依从性提升了 35%,复诊效率提升了 50%。

判断二:幻觉率将成为医疗 AI 采购的硬指标

3.3% 的幻觉率会成为一个标杆——医院在采购医疗 AI 时,会要求供应商提供同口径幻觉率数据。无法提供或幻觉率 >10% 的产品将被排除在候选名单之外。

这一趋势的背后是医疗责任的明确化。当 AI 给出的建议导致误诊时,责任归属需要清晰的法律界定。低幻觉率意味着更高的可追溯性和可解释性,这在医疗纠纷中是关键的合规保障。

判断三:开源医疗模型将占据中国市场主导

合规要求 + 数据隐私 → 本地部署是刚需。M4 如果以 Apache 2.0 开源,将在中国医疗市场获得显著先发优势。闭源模型(GPT-5.5、Claude)在合规性上天然劣势。

从政策层面看,国家卫健委在 2026 年初发布的《医疗人工智能应用管理办法(征求意见稿)》明确要求:涉及患者个人健康数据的 AI 系统,数据处理模块必须部署在医疗机构内部网络。这一规定直接利好支持本地化部署的开源方案。M4 的 235B 参数规模虽然对硬件要求较高(需要至少 4 张 A100 80G GPU),但百川已经在进行模型蒸馏,预计 Q3 推出 70B 版本,可在单台服务器上运行。

此外,开源生态的社区效应不可忽视。M3 开源后,已有超过 200 家医疗机构参与测试和反馈,形成了宝贵的临床数据飞轮。这种社区驱动的迭代速度,远超闭源模型的内部测试循环。

判断四:「证据锚定」将取代 RAG 成为医疗 AI 的标配

段落级证据锚定比传统 RAG 更严格、更可验证。预计 2027 年,主流医疗 AI 产品都会采用类似的段落级引用机制。单纯的「参考了 XX 文献」式引用将被视为不合格。

从技术实现看,证据锚定的核心挑战在于三个方面:一是权威医学知识库的构建和维护成本极高,需要持续跟踪最新指南和文献;二是段落级匹配的算法复杂度远超文档级检索,需要专门的医学 NLP 模型;三是实时性要求高,医生在问诊过程中需要毫秒级的证据检索响应。M4 的六源循证架构(指南、教材、文献、病例、药品说明书、专家共识)提供了一个可参考的框架,但其他厂商可能会发展出不同的证据组织方式。

从技术实现看,证据锚定的核心挑战在于三个方面:一是权威医学知识库的构建和维护成本极高,需要持续跟踪最新指南和文献;二是段落级匹配的算法复杂度远超文档级检索,需要专门的医学 NLP 模型;三是实时性要求高,医生在问诊过程中需要毫秒级的证据检索响应。M4 的六源循证架构(指南、教材、文献、病例、药品说明书、专家共识)提供了一个可参考的框架,但其他厂商可能会发展出不同的证据组织方式。

值得关注的是,证据锚定能力可能成为医疗 AI 认证的新标准。国家药监局在 2026 年下半年的征求意见稿中,已经开始讨论「可解释性」和「证据追溯」作为医疗 AI 产品的注册要求。这意味着,不能提供段落级证据的产品,可能无法通过三类医疗器械审批。

判断五:医疗 AI 的商业模式将从 SaaS 转向「诊疗即服务」

当前医疗 AI 主要卖 SaaS 许可(按科室/按医生数收费)。M4 的连续诊疗能力暗示了一种新模式:按诊疗次数收费——AI 像一个「虚拟全科医生」一样持续服务患者,医院按服务量付费。

这种模式的优势在于:

  • 医院侧:降低固定成本,按实际使用付费
  • 患者侧:获得持续性的健康管理服务,而非一次性诊断
  • AI 厂商侧:收入与使用量挂钩,规模化效应更强

从商业数据看,医疗 AI 的市场规模正在快速增长。据 Frost & Sullivan 预测,中国医疗 AI 市场规模将在 2027 年达到 500 亿元人民币,年复合增长率超过 40%。其中,连续诊疗类服务的占比将从目前的不足 10% 提升到 30% 以上。

但商业模式转型也面临挑战:一是医保支付尚未覆盖 AI 诊疗服务,患者自费意愿有限;二是医生对 AI 辅助诊疗的接受度参差不齐,需要大量培训和教育工作;三是数据安全合规成本上升,特别是跨区域、跨机构的数据共享问题。

图表加载中…

💡 一句话理解

2026 年 4 月,平安医疗 LLM 3.5 曾以 HealthBench Hard 57.27 排名全球第一。仅两个月后 M4 就以更高分刷新纪录。医疗 AI 的跑分竞争正在加速。

⚠️ 常见踩坑

趋势预判基于当前技术路线推断,实际发展可能因监管政策、竞品突破或临床验证结果而改变。

九、总结:跑分只是起点,临床才是终局

Baichuan-M4 的意义不在于「又拿了一个第一」,而在于它同时解决了医疗 AI 的三个核心难题

  1. 幻觉率 3.3% → 证明医疗场景可以做到「几乎不说谎」
  2. 循证精度 90.0 → 证明每句结论都能追溯到具体段落
  3. Baichuan-Harness → 证明医疗 AI 可以从「工具」进化为「连续诊疗 Agent」

但跑分第一只是起点。真正的考验是:

  • 能否通过 NMPA 审批获得临床使用资质
  • 能否在多中心 RCT 中证明临床价值
  • 能否在真实诊疗场景中维持低幻觉率

从 M1 到 M4,百川用两年时间证明了技术路线的可行性。接下来的 12-18 个月,将决定这条路线能否真正走进诊室。

给不同角色的建议:

角色 建议
医疗从业者 关注 M4 的 NMPA 审批进展;评估本地部署的硬件成本
AI 开发者 研究事实感知 RL 的训练方法;关注 Baichuan-Harness 的开源进度
投资人 关注百川 2027 IPO 时间表;医疗 AI 监管政策变化是核心变量
患者/普通用户 「百小医」产品值得试用,但记住:AI 建议不替代医生诊断

医疗 AI 的终局不是「AI 取代医生」,而是让优质诊疗资源不再稀缺。M4 迈出了重要一步,但路还很长。

💡 一句话理解

百川 M4 技术报告全文:arXiv:2606.08982。建议有技术背景的读者直接阅读论文原文,获取更详细的训练方法和评测数据。

⚠️ 常见踩坑

本文所有数据均来自百川智能官方发布和 arXiv 论文。文中涉及的竞品数据来自公开报道,可能存在口径差异。

🎯 相关面试题

结合本篇技术观点,备战 AI 岗位面试。