OpenAI Shuts Down AI-Written Text Detector. Why Should We Believe Other AI Detection Software Works?
I. 背景介绍
AI写作已获得了重大突破,但也带来了一些困难和影响,包括生成的文本与人类写作的类似性增加,难以辨别,同时查重软件对AI写作的没法有效检测等问题。为了解决这些困难,OpenAI致力于开发AI文本检测器,并已推出了相应的工具。
1. AI写作的困难和影响
随着AI技术的发展,AI生成的文本逐步接近人类写作,这使得人们很难准确判断一段文本是由人类或者AI生成。这对文本的原创性和权威性提出了挑战。
另外,目前的查重软件对AI写作的没法有效检测。传统的查重软件是基于比对文本类似度的原理,但是AI生成的文本和原文之间的类似度较高,查重软件可能没法准确检测出AI生成的文本。
2. OpenAI寻求解决AI写作困难的努力
为了解决AI写作的困难,OpenAI推出了AI文本检测器,旨在辨别人工编写文本和AI生成文本。
AI文本检测器是通过训练模型来实现的,模型需要从大量的文本数据中学习,以便能够将人工编写的文本和AI生成的文本辨别开来。通过训练,AI文本检测器可以辨认出文本中可能存在的AI生成内容。
II. OpenAI AI文本检测器的问题和关闭
虽然OpenAI致力于解决AI写作的困难,但是AI文本检测器依然存在一些问题,致使OpenAI决定关闭这一工具。
1. AI文本检测器的低准确率和停用
OpenAI宣布AI文本检测器的准确率只有26%,这意味着该工具在辨别人工编写文本和AI生成文本方面存在一定的误差和不可靠性。
斟酌到AI文本检测器的准确率问题,OpenAI决定停用这一工具,并寻求改进和完善。
2. AI文本检测器的局限性和不足的地方
AI文本检测器存在一些局限性和不足的地方,限制了其在准确检测AI写作方面的能力。
首先,AI文本检测器对长度少于1000个字符的文本的可靠性较低。由于文本长度较短,AI文本检测器可能没法提供准确的结果。
其次,AI文本检测器在标记文本的毛病方面也存在一定的问题和挑战。AI文本检测器可能会将人工编写的文本误标为AI生成的文本,或将AI生成的文本误标为人工编写的文本。
III. Turnitin和其他检测工具的比较
除OpenAI的AI文本检测器,主流的查重软件Turnitin也在改进和完善对AI写作的检测功能。
1. Turnitin作为主流查重软件的局限性
虽然Turnitin对AI写作的检测功能在改进中,但仍存在一些局限性。
Turnitin需要不断更新和升级其检测算法,以适应AI写作技术的不断发展和变化,从而提高其在检测AI写作方面的准确性和可靠性。
2. AI文本检测器对Turnitin等查重软件的竞争力和优势
相比之下,OpenAI的AI文本检测用具有一定的竞争力和优势。
AI文本检测器采取先进的算法和模型,通过大量的训练数据进行学习,可以更好地辨别人工编写文本和AI生成文本。这使得AI文本检测器在保障文本原创性方面具有一定的优势。
总结
OpenAI推出的AI写作检测器是解决AI文本写作困难的关键工具之一,但其准确率和可靠性仍面临挑战。虽然AI文本检测器的准确性有待改进,但它在与主流查重软件如Turnitin的竞争中具有一定的竞争力和优势。
AI写作检测器的利用前景与挑战也需要全面斟酌和评估。在保障文本原创性方面,AI写作检测用具有重要意义,可以有效解决AI写作带来的问题。但是,AI写作检测器依然需要进一步改进和发展,以提高准确性和可靠性。
ai writing detector openai的进一步展开说明
机器能否真正辨别内容会不会由生成式人工智能工具撰写?虽然销售这些验证工具的公司宣称其成功率极高,但答案仿佛会不会定的。今年1月,OpenAI推出了一款AI分类器,用于辨认AI写作的文字(请确保浏览下面的新闻摘录)。原始博文中提到:
我们已训练了一个分类器,用于辨别人类撰写的文字和来自区别提供商的AI撰写的文字。虽然要可靠地检测出所有的AI撰写的文字是不可能的,但我们相信好的分类器可以为AI生成的文字被毛病宣称为人类写作提供减轻措施,比如运行自动化的虚假信息宣扬活动,利用AI工具进行学术不诚实,和将AI聊天机器人假装为人类等等…我们的分类器其实不完全可靠[OpenAI 强调]。在对英文文本的“挑战集”进行评估时,我们的分类器正确将26% 的AI写作文字(真阳性)标记为“多是AI写作的”,而将人类写作的文字毛病标记为AI写作的情况占到了9%(假阳性);随着输入文字长度的增加,我们的分类器的可靠性通常会得到改良。与我们先前发布的分类器相比,这款新分类器在辨别最新AI系统的文本方面要可靠很多。
所以,OpenAI是一家对大型语言模型的工作原理了解更多的公司,它说在辨认AI撰写内容方面,在一些情况下正确率为26%。在将AI标签利用于完全由人类撰写的内容时,它有十一分之一的毛病率。这是2023年1月的情况。六个月后,固然会改良,对吗?答案会不会定的。
上周,OpenAI悄悄在原始博文引入AI分类器的备注中宣布其撤回。
截至2023年7月20日,由于准确率低下,AI分类器不再可用。我们正致力于吸收反馈意见,并正在研究更有效的文本溯源技术,我们许诺开发和部署机制,使用户能够了解音频或视觉内容会不会由AI生成。
OpenAI的谨慎态度是不常见的
创建用于辨认AI撰写文本的独立解决方案的公司并未表达出类似的谨慎态度。斟酌到Turnitin首席产品官在3月份发表的声明:
让我们了解一下AI写作检测中的误报意味着甚么。误报是指毛病地将完全由人类撰写的文本标记为AI生成的。首先重要的是强调,Turnitin的AI写作检测侧重于准确性——如果我们说有AI写作,我们非常确信是有的。我们的努力主要集中在确保高准确率,伴随着不到1% 的毛病报警率,以确保学生不会被毛病指控任何不端行动。
这是一个关于低误报率的相当强烈的宣称。我收到了关于这一新解决方案的新闻稿的初期副本,并向公关代表提出了一些未得到回答的问题。以下是其中一些特定问题。
您能提供证明98% [准确率] 宣称的数据吗?OpenAI表示,他们自己的工具的准确率只有大约25%,而且他们对模型了解最深入。有如此广泛的差距,我想看一下98% 的置信度背后的数据。这98% 会不会适用于所有领域,或者仅适用于某些主题或种别?落入2% 失败率的项目的共同特点是甚么?根据这个声明,我认为98% 的分数与正确辨认AI生成的作品是相关的。系统对标记为AI生成的人类创作作品的误报率是多少?这些数字将区别,否则这将是一个非常不太可能的偶合。我注意到在图片中,有75% 的作品被标记为“由AI生成”。所以,98% 的置信度分数是指系统对文章的75% 部份有98% 的肯定是由AI生成的,或者系统对文章中75% 的部份有98% 的肯定是由AI生成的,或其他甚么意思。
公关代表从未回答过这些问题,虽然我肯定她看到了这个要求。她也没有回复我的后续要求。为何要躲避这些非常基本的问题?重大的声明需求证据,特别是当核心技术的创造者都在表达谨慎之时,而且对学生遭到的误导可能会产生严重影响。
如果没有证据,潜伏客户会不会应当对这些声明保持警惕?“相信我们”是一个恰当的回应吗?
华盛顿邮报对这些声明提出质疑
或许公关代表最初不愿回应的缘由之一就是她在这个领域中对统计数据的解读不了解。我完全希望她能向团队请教以获得澄清和数据。但是,我初始的要求是在3月29日,而后续的要求是在4月初,所以我认为已有足够的时间来回应。我认为这是一种避免透明的选择。
另外一个缘由多是《华盛顿邮报》在4月3日发表了一篇关于Turnitin声明遭到质疑的报导。
高中生Lucy Goetz在她写的一篇关于社会主义的原创文章中取得了最高分。所以,当我告知她我一直在测试的一款新型教育软件宣称她得到了人工智能的帮助时,她感到很惊讶。Turnitin的新型AI写作检测器——其软件已被210万名教师用于检测剽窃——将她的文章末尾标记为多是由ChatGPT生成的……我要求Turnitin提供初期使用其软件的机会。包括Goetz在内的五名高中生自愿帮助我进行测试,创建了16个真实的、纯AI生成的和混合来源的文章样本,以检测通过Turnitin的检测器。结果如何?它最少在其中的⼀半样本上的部份都出错了。Turnitin成功辨认了16个样本中的6个,但在其中的3个上失败,其中包括Goetz原⽂的8% 被标记。并且在其余的7个样本中,它的判断还算偏正面,但对ChatGPT生成的或混合来源写作的某些部份判断毛病。Turnitin宣称,其检测器整体上的准确率到达98%。根据自己的测试,这类似于Goetz的文章所遇到的假阳性情况,产生的几率不到1%……Turnitin 的检测器还存在其他重要的技术限制。在它完全正确的六个样本中,全都是唯一由学生撰写的100% 的作品,或完全由ChatGPT生成的。但当我使用来自混合AI和人类来源的文章进行测试时,它常常将个别句子毛病地标记,或完全漏掉人类部份。它没法发现我们通过改写句子的程序Quillbot来完成的论文中的ChatGPT……“我担心他们将其营销为一个精确的产品,但他们在怎样使用其产品上却使用了可疑的措辞,”不列颠哥伦比亚理工学院的新兴技术与开放教育图书管理员Ian Linkletter表示。“他们之所以加快推动,不是由于有迫切需要推出该产品,而是由于他们担心现有的产品将变得过时。”
那末,我们应当相信这些有经济利益的公司宣称他们几近完善的解决方案,或者应当斟酌通过直接使用所积累的数据呢?
对Turnitin来讲,好消息是他们的解决方案可能其实不像其他解决方案那末糟。TechCrunch在2月的一项AI写作检测工具分析中报导了OpenAI分类器、AI Writing Check、GPTZero、Copyleaks、GPT Radar、CatchGPT、Originality.ai等工具:
经过所有这些测试,我们能得出甚么结论呢?一般来讲,AI文本检测器在检测方面表现不佳。GPTZero是唯逐一个延续表现良好的,准确分类出了七次中的五次AI生成的文本。其他几个解决方案……则没有这么好。CatchGPT是准确性第二高的,其中有四个样本被正确分类,而OpenAI分类器的准确性排在第三位,只有一个样本是正确的。
大多数检测解决方案的准确性低于一半的情况。华盛顿邮报对Turnitin的点对点测试结果也是如此。开发了最广泛使用的大型语言模型(LLM)的OpenAI表示,其分类器的准确率只有大约26%。
如果你在4次中只有1次正确,那末结果比扔硬币还差。如果准确率为50%,情况也是如此。让这些事情沉淀下来。除非解决方案的准确率超过50%,否则你最好扔硬币。
假定Turnitin的误报率为2%。如果你写了50篇论文,检测其中有无AI内容,你极可能会被毛病指控提交了一篇AI撰写的论文。但是,根据我们所见到的证据,2% 的误报率可能太乐观了。你可以想象,如果负面影响接近25% 或50% 的失败率,这将对使用这类工具的有用性和道德性产生质疑。
请转发这篇博文。传播生成式人工智能的知识、观点和善意。分享
这对谁有重要意义?
AI的失败常常是由于对仿佛支持有效性的测试结果的过分热中。我认为,大多数被证明不真实的声明只是毛病,而不是成心误导。但是,我也认识到,很少有公司像OpenAI那样放心肠承认失败。很多人会有动机“伪装直到他们(希望)成功”或直到他们找到新工作。
还有一个仿佛没有人提出的问题就是了解内容是由AI完全或者部份创建的有多重要?我怀疑随着时间的推移,这个耽忧会减弱,由于AI最少在某种程度上会对大多数内容作出贡献。更重要的问题将是透明地了解内容的发布者是谁。比起内容是由谁创建的,更重要的是谁在背后支持内容。
有多少由大公司CEO“撰写”的文章是完全由他们自己撰写的?几近没有。在这类情况下,他们从其他作家那里得到帮助。但是,这些CEO要对文章负责,由于他们在文章上签名。使用ChatGPT有甚么区分呢?再次强调,重要的是信息和站在信息背后的人……大多数情况下。
但也有例外。教育固然是其中之一。在这类情况下,内容的来源和负责任的人一样重要。否则,教育工作者就没法进行学习和成绩评估。
英国罗素团体的大学宣布了鼓励使用和掌握生成式AI工具的AI原则,但要在道德原则的基础上这样做。他们希望学生知道如何和什么时候使用生成式AI,但不应在不适当或被制止的情况下这样做。
许多人将生成式AI视为一种全新的现象。请记住,学生之前可以提交其他学生或专业作家撰写的论文。现在他们可使用生成式AI。这些问题其实不新颖。
一些教育工作者已得出结论,他们可能需要改变评估技术,以应对不当使用生成式AI工具的潜伏问题。口头考试已被提议作为衡量知识掌握程度的一种选择。这也是教育机构曾接受过但现在已基本放弃使用的方法。
因此,当你思考关于检测AI生成内容的问题时,避免接受它引入新问题和对教育评估或其他活动产生生存风险的膝反应。这二者都不太多是真实的。根据使用情况和其他方法,评估需要的重要性。
另外,要求支持宣称软件可以高准确率地检测AI写作内容的证据。过去的记录表明,怀疑应当是你的默许立场。
请分享这篇文章。传播生成式AI的知识、观点和善意。分享。
ai writing detector openai的常见问答Q&A
问题1:OpenAI 推出 AI 文本检测器,AI 枪手引耽忧是甚么?
答案:OpenAI推出AI文本检测器是为了解决AI文本生成所带来的问题,但同时也引发了一些耽忧。人们担心这类检测器可能会被歹意使用,例如用于检测和打击异议言论、审查内容或捏造证据。这些耽忧源于AI文本检测器的技术能力和利用可能性。但是,OpenAI表示他们将采取措施来减缓人们的耽忧,并确保AI技术的安全、透明和可延续发展。
- 举例:一些人担心AI文本检测器可能会被政府或企业滥用,用于压抑言论自由和追踪个人信息。
- 其他相关信息:OpenAI意想到这些耽忧,并表示他们将与社区、监管机构和其他利益相关者合作,制定适当的政策和控制措施,以保护AI技术的公共利益和社会影响。
问题2:OpenAI为何下架了AI文本检测器?
答案:OpenAI下架AI文本检测器是由于它的准确率太低。根据OpenAI发布的最新消息,该文本检测器的准确率仅为26%。这意味着它在辨别AI生成文本和人工编写文本方面的性能较差,没法满足预期的利用需求。由于准确率太低,OpenAI决定停止AI文本检测器的使用,并将寻求更好的解决方案来解决AI文本生成的相关问题。
- 举例:一份OpenAI发布的报告显示,AI文本检测器在对长文本、特定领域的文本和高度技术性文本的判断方面表现不佳。
- 其他相关信息:虽然AI文本检测器的准确率较低,但这其实不意味着AI技术本身是无用的。事实上,OpenAI仍致力于开发更先进、更准确的AI文本生成和检测技术,以进一步提高AI在文本领域的表现。
问题3:OpenAI的AI文本检测工具和ChatGPT之间有何关联?
答案:OpenAI的AI文本检测工具和ChatGPT之间存在一定的关联。AI文本检测工具是OpenAI开发的一种用于辨别人工编写文本和AI生成文本的工具,而ChatGPT是OpenAI的一款AI语言模型,用于生成文本回复。这二者之间的关联在于,AI文本检测工具被用于检测ChatGPT生成的文本会不会为AI生成的,从而提高对ChatGPT的使用和管理的可靠性。
- 具体解释和例子:例如,在使用ChatGPT进行在线客服对话时,AI文本检测工具可以帮助肯定会不会有歹意用户使用AI技术来误导客服或散布虚假信息。
- 其他相关信息:AI文本检测工具和ChatGPT之间的关联也反应了OpenAI对AI技术的全面探索和发展。OpenAI不但致力于提升AI生成文本的质量和可信度,还要通过AI文本检测工具等工具提高对AI生成文本的监管和管理能力。
问题4:OpenAI的AI文本检测工具关闭对AI编写的文本没法进行检测吗?
答案:是的,OpenAI的AI文本检测工具关闭后,没法对AI编写的文本进行检测。根据OpenAI发布的消息,该工具的准确率太低,没法可靠地辨别AI生成的文本和人工编写的文本。因此,在关闭AI文本检测工具后,OpenAI目前没法提供一种可行的方式来检测AI编写的文本。
- 具体解释和例子:例如,如果有人使用AI技术生成了一篇文章,经过AI文本检测工具时会被毛病地标记为人工编写的,或反之。
- 其他相关信息:OpenAI对此问题的解决方案还没有给出明确说明。但是,OpenAI表示他们将继续研究和开发更先进、更准确的AI文本检测技术,以提高对AI编写文本的辨认能力。
问题5:OpenAI关闭AI检测器的缘由是甚么?
答案:OpenAI关闭AI检测器是由于其准确率太低。根据OpenAI的官方消息,该检测器的准确率仅为26%。这意味着在辨别人工编写文本和AI生成文本方面,该检测器的性能较差,没法满足预期的准确性要求。由于准确率太低,OpenAI决定关闭AI检测器,并寻求更好的解决方案来解决AI文本生成的相关问题。
- 具体解释和例子:例如,在对一篇长文本进行测试时,该检测器只能正确判断出其中26%的AI生成内容,另外74%的AI生成内容没法被准确辨认。
- 其他相关信息:虽然AI检测器的准确率较低,但这其实不意味着OpenAI放弃了解决AI文本生成问题的努力。OpenAI仍致力于研究和开发更先进、更准确的AI检测技术,并且欢迎社区和研究者的参与和贡献。