ReadCai财经资讯

DeepSeek R1在医疗AI模型中表现突出

2025-06-04

数据:

DeepSeek R1以66%胜率赢得评测,宏观平均分0.75。

对其他模型的胜率为o3-mini 64%、Claude 3.7 Sonnet 64%,成功处理22个医疗任务类别。

线索:

斯坦福的评测系统“MedHELM”有效评估了大语言模型在医疗领域的表现,提供了包括35个基准测试的综合框架。在日常医疗场景下,这项研究为模型开发与投资提供了新的标准与方向,以及调整市场策略的机会。

正文:

斯坦福大学的最新评测显示,DeepSeek R1在临床医疗任务中表现优异,以66%的胜率及0.75的宏观平均分位列第一。这一评测专注于临床医生的日常工作,而不只是传统的医疗执照考试题目,因而吸引了广泛关注。整个评测涵盖了35个基准测试,覆盖22个医疗任务类别,由来自14个医学领域的29名执业医师参与开发分类体系。此体系模拟了实际临床逻辑,包括医疗活动类别、相关子类别和具体任务,经过验证后扩展为5个类别、22个子类别和121项任务。

在评测中,DeepSeek R1不仅整体胜率领先,还在稳定性上表现出色,其胜率标准差仅为0.10。紧随其后的是o3-mini,胜率为64%且宏观平均分为0.77,而Claude 3.7 Sonnet和Claude 3.5 Sonnet的胜率为64%和63%。其他模型如GPT-4o、Gemini 2.0 Flash和开源的Llama 3.3 Instruct的表现较弱。

评测还显示,各模型在不同类别任务中表现明显差异。自由文本生成任务得分较高,而结构化推理任务的表现较弱,反映出领域特定知识和逻辑推理能力对某些任务的重要性。团队通过大语言模型评审团方法评估模型输出,结果表明该方法有效性明显高于传统评估指标。

最后,成本效益分析显示,推理模型的成本较高,DeepSeek R1的成本为1806美元,而非推理模型如GPT-4o mini相对更便宜,但胜率较低。整体来看,Claude 3.5 Sonnet和Claude 3.7 Sonnet的性价比较高。

发布时间:

2025-06-03 17:33:10

相关推荐

评论 ( 0 )

2.9 W

文章

39.9 W

点赞

回顶部