随着医疗领域中大型语言模型(LLMs)的迅猛发展,公众对于其评估的需求日益增长,要求超越传统的USMLE等基准测试,以更全面地反映模型在现实世界中的应用性能。尽管现实世界的评估对于衡量模型的实用性具有重要价值,但由于其往往滞后于LLMs的技术进步,可能导致在模型部署时评估结果已不再适用。
本文提出了MEDIC框架,该框架从五个关键临床能力维度对LLMs进行全面评估:医学推理、伦理与偏见、数据与语言理解、情境学习以及临床安全。MEDIC的核心创新在于其独特的交叉审查机制,能够在无需参考输出的情况下,量化评估LLMs在内容覆盖率和幻觉检测等方面的表现。
1 MEDIC 框架
1.1 五个关键维度
- 医学推理:评估LLMs在临床决策过程中的能力,包括模型解释医学数据、制定鉴别诊断、推荐适当测试或治疗以及为其结论提供基于证据的合理化建议的能力。
- 伦理和偏见问题:解决医疗AI中的公平性、公正性和伦理考虑的关键问题,评估LLM在不同患者人群中的表现,检查与种族、性别、年龄、社会经济地位或其他人口统计因素相关的潜在偏见。
- 数据和语言理解:评估LLM解释和处理各种类型的医学数据和语言的能力,包括理解医学术语、临床行话、解读临床笔记、实验室测试报告和成像结果。
- 情境学习:检查模型的适应性和在给定临床情境中学习和应用新信息的能力,评估模型如何将新指南、最新研究发现或患者特定信息纳入其推理过程。
- 临床安全和风险评估:专注于LLM在临床环境中优先考虑患者安全和管理潜在风险的能力,评估模型识别和标记潜在医疗错误、药物相互作用或禁忌症的能力。
1.2 评估任务
MEDIC 框架包含多种评估任务,以评估 LLMs 在不同维度上的表现:
- 封闭式问题: 使用医学知识测试数据集评估 LLMs 的知识广度和准确性。
- 开放式问题: 使用临床问答数据集评估 LLMs 的推理能力、解释能力和安全性。
- 文本摘要: 使用临床试验数据集和问题总结数据集评估 LLMs 的信息提取和总结能力。
- 结构化响应: 使用临床笔记数据集评估 LLMs 生成结构化医疗文档的能力。
1.3 评估指标
MEDIC 框架使用多种评估指标来量化 LLMs 的表现,包括:
- 准确性: LLMs 答案与正确答案的一致性程度。
- 相关性: LLMs 答案与问题内容的相关性程度。
- BERTScore: 衡量生成文本与参考文本之间的语义相似性。
- 覆盖率: LLMs 答案中包含的原始文本信息比例。
- 毒性: LLMs 答案中包含有害内容的程度。
1.4 评估方法
本文引入了一种新颖的“交叉审查”框架。“交叉审查”框架采用三步评估方法首先从原始文档和(生成的)摘要中生成封闭式问答对。然后,执行“交叉审查”步骤,将文档/摘要派生的问题用于摘要/文档文本,并预测答案。最后,将交叉审查步骤中预测的答案与相关问题的真实答案进行比较,并从中计算出四个关键分数:一致性、覆盖率、符合性和简洁性。
- 一致性(Consistency):这个分数衡量摘要中的事实信息的准确性与原文本的对比。它是通过计算摘要派生的问题在基于文档内容预测时得到“不知道”(IDK)回答的百分比来确定的,一致性越高,表示摘要中的事实错误或虚构内容越少。
- 覆盖率(Coverage):这个分数衡量摘要全面覆盖原文本内容的程度。它通过计算文档生成的问题在基于摘要内容预测时得到“不知道”回答的百分比来确定,覆盖率越高,表示摘要捕捉到的原文本细节越多。
- 符合性(Conformity):也称为非矛盾分数,这个指标评估摘要是否避免与文档相矛盾。它是通过识别摘要答案为“否”而文档答案为“是”,或反之亦然的问题的百分比来计算的,符合性越高,表示摘要与文档之间的一致性越高。
- 简洁性(Conciseness):反映摘要的简洁性,这个分数通过从原始文档到摘要的词级标记数量减少来计算。简洁性分数越高,表示摘要更加简洁,有效地捕捉了原始内容的精髓,没有冗余。
2 评估任务
2.1 封闭式问题 (Closed-Ended Questions)
评估 LLMs 的医学知识广度和准确性。
2.1.1 数据集
- MedQA: 类似于 USMLE 的问题,涵盖各种医学主题。
- MMLU 和 MMLU-Pro: 包含医学相关子集,难度从基础到高级专业水平。
- MedMCQA: 用于医学入学考试的大规模选择题答案数据集。
- PubMedQA: 来自 PubMed 摘要的数据库,测试 LLMs 的生物医学文献理解能力。
- ToxiGen: 评估 LLMs 避免有害内容的能力。
2.1.2 评估指标
- 准确率 (Accuracy): 衡量模型在回答问题时正确答案的比例。例如,在 MedQA、MMLU、MedMCQA 等数据集上,模型需要回答多项选择题,准确率越高越好。
- MMLU 和 MMLU-Pro: 衡量模型在医学领域知识理解方面的能力,涵盖从基础到高级的专业水平。
- MedMCQA: 衡量模型在理解医学概念和推理方面的能力,类似于医学入学考试。
- PubMedQA: 衡量模型在理解生物医学文献并进行问题回答方面的能力。
- ToxiGen: 衡量模型避免产生有害内容的能力,例如识别药物相互作用或禁忌症。
2.1.3 方法
使用 LLM-as-a-Judge 技术,评估 LLMs 对问题的回答概率。
2.2 开放式问题 (Open-Ended Questions)
评估 LLMs 的推理能力、解释能力和安全性。
2.2.1 数据集
- MedicationQA: 实际消费者关于药物和药物的健康问题数据集。
- HealthSearchQA: Google 发布的消费者问题数据集。
- ExpertQA: 高质量的医学问题数据集。
2.2.2 评估指标
准确率、相关性、BERTScore 等。
2.2.3 方法
2.2.3.1 绝对评分
使用 Prometheus-2 模型对每个回答进行评估,根据 12 个维度进行评分,包括:
- 事实准确性: 答案是否基于事实,信息是否准确且更新。
- 与临床指南的一致性: 答案是否符合现有的医疗指南和标准实践。
- 诊断和治疗准确性: 答案是否提供准确的诊断信息和建议的治疗方案。
- 全面性: 答案是否涵盖了所有重要的方面,没有遗漏关键信息。
- 上下文相关性: 答案是否针对提出的问题。
- 可行性和实用性: 答案中的建议是否在实践中可行。
- 保密性和偏见: 答案是否维护患者隐私,是否存在偏见。
- 患者安全: 答案是否建议寻求专业医疗建议,避免有害做法。
- 风险缓解: 答案是否识别和解决潜在风险。
- 语言清晰度: 答案是否清晰易懂,避免使用不必要的术语。
- 专业语气: 答案是否使用适当的临床沟通语言。
- 逻辑结构: 答案是否结构清晰,逻辑合理。
2.2.3.2 成对比较
使用 Prometheus-2 模型对两个模型生成的答案进行比较,根据 12 个维度进行评分,并根据胜率计算 Elo 分数。
2.3 文本摘要 (Text Summarization)
评估 LLMs 的信息提取和总结能力。
2.3.1 数据集
- Clinical Trial: 来自 ClinicalTrials.gov 的临床试验协议数据集。
- Problem Summarization: 来自内部医学医生在常规临床实践中生成的诊断问题列表数据集。
2.3.2 评估指标
- ROUGE: 衡量生成摘要与参考摘要之间的词汇相似度。
- BLEU: 衡量生成摘要与参考摘要之间的句子相似度。
- BERTScore: 衡量生成摘要与参考摘要之间的语义相似度。
- 4C 分数 (4C Scores): 一致性 (Consistency)、覆盖率 (Coverage)、一致性 (Conformity)、简洁性 (Conciseness)
2.3.3 方法
交叉检验框架: 生成问题-答案对,并使用这些问题来评估文本的完整性和准确性。
2.4 结构化响应 (Structured Responses)
评估 LLMs 生成结构化医疗文档的能力。
2.4.1 数据集
- ACI Bench: 用于基准测试从医生-患者对话生成临床笔记的数据集。
- SOAP Note: 用于生成 SOAP 格式临床笔记的数据集。
2.4.2 评估指标
ROUGE、BERTScore、4C 分数 (一致性、覆盖率、一致性、简洁性) 等。
2.4.3 方法
使用交叉检验框架,评估 LLMs 生成的文本与原始文本的一致性和完整性。
3 结论
- 模型性能与规模的关系:随着模型规模的增加,其在大多数基准测试中的性能也随之提高。这与语言模型扩展的一般趋势一致。
- 安全性能:尽管较大的模型在大多数任务上表现更好,但在专门针对安全性的基准数据集(ToxiGen)上,性能提升并不明显。这表明在安全相关的任务上,较小的模型也能够提供可接受的性能。
- 置信区间:图中的置信区间显示了评估结果的变异性。较小的置信区间意味着结果更加稳定和可靠。
- 数据集的挑战性:不同的数据集可能对模型提出了不同的挑战。例如,USMLE数据集可能更侧重于基础医学知识,而ToxiGen则专注于评估模型避免生成有害内容的能力。
3.1 封闭式问题 (Closed-Ended Questions)
- 模型规模: 大型模型在大多数任务中表现出色,这符合语言模型缩放的趋势。然而,在安全相关的基准数据集 (ToxiGen) 上,这种趋势并不明显。
- 专业指令模型: 针对医学领域进行微调的指令模型在基准测试中表现出色,这表明特定领域的指令和调整可以增强模型的知识库和推理能力。
- 基准测试饱和: 在某些基准测试 (如 USMLE) 中,模型获得了近乎完美的成绩,这表明这些测试可能已经达到饱和,需要更全面和更具挑战性的评估方法。
3.2 开放式问题 (Open-Ended Questions)
- 大型模型不一定表现更好: 在开放式临床问题生成任务中,大型模型并不一定总是优于小型模型。例如,GPT-4 在风险缓解和全面覆盖方面表现不佳。
- 模型差异: 不同的模型在安全、清晰度和全面性等方面表现出不同的优势和劣势。
- 模型评估一致性: Prometheus-2 作为模型评估者,与临床专家的评估结果高度一致,这表明该框架在评估 LLMs 的开放式问题生成能力方面是可靠的。
- 成对比较: 小型模型在某些情况下 (如拒绝回答问题) 可能比大型模型表现更好,这表明需要根据具体场景进行模型选择。
3.3 医学安全评估 (Medical Safety Evaluation)
- 偏好调整的重要性: 使用偏好调整的模型 (如 Med42-Llama3.1-70b) 在安全相关的基准测试中表现出色,这表明在进行特定领域的微调时,需要考虑安全性。
- 医安全基准的局限性: Med-Safety 基准主要关注医生对患者的伦理行为,而忽略了其他利益相关者 (如患者) 的使用方式。
3.4 交叉检验框架 (Cross-Examination Framework)
- 临床文本摘要: 微调模型在避免幻觉方面表现更好,而 Mistral/Mixtral 模型在一致性方面表现出色。
- 临床笔记生成: 微调模型在避免幻觉方面表现更好,而 Med42 和 Meditron 在一致性方面表现出色。
- 简洁性和覆盖率之间的权衡: 通常,简洁性较高的摘要具有较低的覆盖率,而简洁性较低的摘要具有更高的覆盖率。
- 与传统指标的关联: 4C 分数与传统的摘要指标 (如 ROUGE 和 BERTScore) 存在一定的关联,但它们似乎捕捉了不同的方面。