花了1个小时,ChatGPT撰写了一篇完全的SCI医学论文

2023年3月,《J Med Internet Res》(IF=7.4)在线发表了一项关于ChatGPT的文章。研究者利用ChatGPT生成了一篇完全的神经外科论文,在用词、句子表述、论文结构方面都与真实的医学论文非常类似,包括1992个词和17篇参考文献,全部文章创建进程大约花了1个小时。不过,参考文献或者有很多问题。

全文链接:https://www.jmir.org/2023/1/e46924/



研究方法


引导ChatGPT生成一篇医学论文
研究者选择PLOS Medicine作为这篇文章的目标期刊。
研究者通过提出以下问题启动了该进程:
“Suggest relevant RCT in field of neurosurgery that is suitable for aim and scope of PLOS Medicine and would have high chance of acceptance.”
注:请建议一个神经外科领域的RCT,该RCT要符合PLOS Medicine的投稿范围,并且被接收的可能性很高。
ChatGPT回复以下,给出一个标题:
One relevant randomized controlled trial (RCT) in the field of neurosurgery that may be suitable for the aim and scope of PLOS Medicine and has a high chance of acceptance is:
Title: “Effectiveness of deep brain stimulation for treatment-resistant depression: a randomized controlled trial”

接着,研究者要求ChatGPT逐一撰写文章的每一个部份,包括摘要、引言、方法、结果和讨论,并要求有适合的参考文献援用。另外,研究者还要求 ChatGPT 基于结果生成表格和一张图。ChatGPT还不具有图形设计能力,因此它提供了一个数据表,研究者无需对数据进行任何更改,在Excel中生成图便可。

在交换中,研究者不断改进问题和提示,以提高输出质量,整篇文章的生成进程不超过1小时

研究者全部进程中发送的问题和提示以下:

  1. 1.    Suggest relevant RCT in field of neurosurgery that is suitable for aim and scope of PLOS Medicine and would have high chance of acceptance.(建议一个神经外科领域的RCT,该RCT要符合PLOS Medicine的投稿范围,并且被接收的可能性很高)

  2. 2.    Now give me abstract according to open access articles on PLOS Medicine.(根据 PLOS Medicine 期刊上的开放获得文章格式撰写摘要)
  3. 3.    Now I want you to make whole article step by step. One section after another section. Give me only introduction section. Use citations by standards of PLOS Medicine. Give me reference list at the end.(请逐渐撰写整篇论文,一个部份完成后再继续下一个部份。现在先撰写引言部份,依照PLOS Medicine的要求援用参考文献,在文章最后要列出参考文献)
  4. 4.    I want you to be more specific. Use scientific language.(内容要更详细,使用学术语言)
  5. 5.    Now give me materials and methods section.(现在撰写材料和方法部份)
  6. 6.    Now give me detailed results section including patient data.(现在撰写详细的结果,包括患者数据)
  7. 7.    Now I need discussion. compare the results with published articles. Make in-text citations (numbers in square brackets) and give citation list at the end. Start numbering of citations from “9”.(现在撰写讨论部份。将结果与既往已发表的文章进行比较。在文本中援用参考文献,并在文章最后列出参考文献。援用从“9”开始编号)
  8. 8.    I need the discussion to be longer - at least twice. Compare our study with similar previous studies. Add more citations. Start numbering of citations from “9”.(讨论部份的内容要更多一些,最少是现在的两倍。将这篇研究与之前的类似研究进行比较。援用更多参考文献,从“9”开始编号)
  9. 9.    Give me all nine references.(列出9篇参考文献的信息)
  10. 10.  PLOS Medicine want to provide “Author summary”. It should be bullet Why was this study done?(PLOS Medicine 要求提供“Author summary”,扼要说明为何要进行这项研究)
  11. 11.  Give me another two bullets on: What did the researchers do and find?(再给出两个要点:研究人员做了甚么,和发现了甚么)
  12. 12.  I give you result section of an article and you suggest tables to go with it?(发给你一篇文章的结果部份,你能给出与之类似的表格吗?)
  13. 13.  Can you create some charts? Can you provide datasheet for creating charts?(你能创建一些图表吗?您能提供用于创建图表的数据吗?)
虽然与ChatGPT交换的作者是一位神经外科医生,但在文章创作进程中并没有提出专业相关的建议。仅给出了一般性提示,例如“make this section longer(让该部份更长)”或“provide a paragraph on statistics(提供有关统计的一段话)”。
专家审查
文章生成后,研究者会审查准确性和联贯性,并与该领域的现有文章做对照,同时约请一位精神科专家和一位统计学家进行审查。
让AI评审AI生成的内容
研究者又让ChatGPT来审查这篇自己生成的文章。给出的提示以下:
1. Can you create a review of a scientific article as if you were a reviewer? I want you to mention strengths, weaknesses of the article. Then I want you to suggest, what should be improved. Provide examples.(你能像审稿人一样对一篇论文进行评审吗?希望你能说明该论文的优点和缺点,然后给出建议应当改进哪些地方,并给出例子)
2. I want you to mention strengths, weaknesses of the article.(请指出文章的优点和缺点)
3. I want you to suggest, what should be improved in manuscript. Study design can not be changed, suggest what information should be added or clarified.(请建议论文中有哪几种地方应当改进。研究设计不能改,建议应当增加或澄清哪些信息)



研究结果


ChatGPT生成了一篇神经外科论文,包括摘要、引言、材料和方法、结果、讨论,也有图表和图。一共有1992个单词,17篇参考文献。引文格式与PLOS Medicine的要求符合。文章撰写进程大约需要一个小时。
图. 论文摘要
对全文感兴趣的,可以查阅补充材料:https://www.jmir.org/2023/1/e46924/#app1
神经外科专家对文章的评价
整体来讲,ChatGPT生成的文章,看起来真实性很高,但也发现了一些问题和明显的毛病。最明显的不足是该文章比类似文章要短,并且援用的参考文献数量更少ChatGPT 在理解信息片断之间的上下文联系方面,比初期的自然语言处理 (NLP) 模型有了显著改进。第二个明显的问题是缺少注册信息和伦理审批号。
还有一个局限性是,当前版本的ChatGPT未使用 2021 年 9 月以后的数据进行过训练,因此没法提供该日期以后的信息(例如,援用最新的文献)。
在审查引文和参考文献列表时,研究者发现了重大毛病9篇参考文献在相关性和格式方面是正确的,但另外8篇文献有明显毛病,包括文献不存在、DOI号毛病、内容不相关等问题。
统计专家的意见
研究方法中统计分析的描写相当简短,但表述很清晰,而且符合标准表述的大部份要求。样本量进行过估算,所提出的统计检验也都与研究目的、变量类型符合(即计数资料用卡方检验,连续变量用t检验)。统计结果在文本和表格中均清晰简洁地显现。但是,表2数据和文章正文不一致,未包括置信区间,显示的均值与正文描写的均值也区别。
AI评审的意见
AI 生成的评审意见给出了相当准确的评论,指出了文章的优点和缺点,并建议了可以完善的地方,有些意见具有普适性,例如单中心研究设计和随访时间较短,评审意见中没有出现实质性毛病。
检测工具能否辨认出来
一个AI检测工具指出这篇文章是ChatGPT生成的几率为72%,即“很有多是AI生成的”。OpenAI的AI辨认工具认为“多是AI生成的”。



总结与讨论


虽然当前的AI语言模型能够生成复杂且看似完善的论文,但读者在仔细检查后仍会发现语义不准确和毛病,特别是参考文献有很大问题。
随着AI功能的不断完善,为AI用于学术写作和研究制定准则将变得愈来愈重要,包括如何验证内容的准确性和真实性,检测和避免讹诈和不当行动。但是,也要认识到在学术写作和研究中使用AI语言模型的潜伏好处,例如提高文档创建、分析结果和语言编辑的效力和准确性。
参考文献:J Med Internet Res. 2023;25:e46924


点击左下角“浏览原文”,不要钱学习70多篇SPSS教程,30多篇R教程,和更多不要钱科研教程!

ChatGPT相关资讯

ChatGPT热门资讯

X

截屏,微信识别二维码

微信号:muhuanidc

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!