JAMA子刊：ChatGPT回答复杂临床考题的能力超过斯坦福医学生

ChatGPT账号购买平台发布时间：2023-07-20 浏览量：41

撰文丨王聪

编辑丨王多鱼

排版丨水成文

ChatGPT，是由人工智能研究实验室 OpenAI 于2022年11月30日发布的全新聊天机器人模型——人工智能技术驱动的自然语言处理工具。ChatGPT能够通过学习和理解人类的语言来进行对话，还可以根据聊天的上下文进行互动，真正像人类一样来聊天交换。自推出以来，ChatGPT强大的能力备受关注。

2023年7月17日，斯坦福大学医学院的研究人员在 JAMA 子刊 JAMA Internal Medicine 上发表了题为：Chatbot vs Medical Student Performance on Free-Response Clinical Reasoning Examinations 的论文。

这项最新研究显示，在回答具有挑战性的临床考试问题时，ChatGPT可以比斯坦福大学医学院一年级和二年级的医学生表现得更好。这项研究结果强调了人工智能（AI）对医学教育和临床实践的加速影响，并建议需要一种新的方法来培养未来的医生。

ChatGPT是目前最著名的大语言模型人工智能系统，在过去的几个月里吸引了全球的眼光。最近的研究表明，ChatGPT可以准确回答美国执业医师资历考试（USMLE）中的多项选择题，而医生一定要通过USMLE考试才能执业。

在这项最新研究中，斯坦福大学的研究团队希望探索人工智能系统怎么处理更难的开放式问题（而非选择题），这些问题本来用于评估斯坦福大学医学院一年级和二年级学生的临床推理技能。这些问题在离散的段落中揭露了患者病例的细节，要求学生利用临床推理技能提出可能的诊断。

这项新研究使用了Open AI公司于今年3月份发布的最新版本的ChatGPT，也就是GPT⑷。这也是该团队在此前一项研究的基础上进行的，此前的研究使用的则是GPT⑶.5。

在这两项研究中，斯坦福大学的研究团队搜集了14个临床推理案例。这些案例的文字描写长度从几百字到上千字不等，包括了许多无关的细节，比如不相关的慢性疾病和药物，就像现实生活中的病人病历一样。

在考试中，考生在浏览每一个案例报告后，写出相应发问的答案。这类浏览分析文本并撰写答案的考试方式与执业医师资历考试（USMLE）中的选择题的相对简单构成构成鲜明对照。由于ChatGPT的学习训练来自全部互联网，因此它可能没法准确理解考题中医疗专业术语，例如“problem list”一词，在医疗领域，它指的是病人过去和现在的医疗问题，但这个词也会出现在其他非医疗语境中。

测试结果显示，GPT⑶.5刚刚到达及格水平，而GPT⑷的得分比这些学生的平均得分高出4.2分，并且在93%的测试中超过了及格线，而学生中唯一85%及格。

固然，ChatGPT的表现也并不是完善无瑕。GPT⑶.5在回答中会出现虚构的内容，GPT⑷则显著减少了这一问题。

研究团队认为，这一结果提示我们，通过书面文本进行医学推理的教学和测试的本质被新工具颠覆了，ChatGPT等工具正在改变我们的教学方式，并有望终究改变医学实践。

实际上，在考试和课程设计方面，斯坦福大学医学院已遭到了ChatGPT的影响。在上个学期，斯坦福大学的管理人员意见决定将考试从开卷改成闭卷，以避免学生们利用ChatGPT做弊。

研究团队表示，不希望医学生在学校里过于依赖人工智能，由于这样可能会致使他们没法学会如何通过自己的分析进行推理。但另外一方面，随着人工智能的普及，一个医生没有接受使用人工智能的培训可能更值得耽忧。

最后，论文第一作者 Eric Strong 表示，也许还需要几十年时间人工智能才能全面取代医生，但再过几年，我们可能就会看到人工智能在平常医疗中的利用。

论文链接：

https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2806980