GPT⑵: How to Build “The AI That’s Too Dangerous to Release”(gpt 2)

GPT⑵模型(transformer语言模型可视化):一文了解GPT⑵的使用和效果

一、GPT⑵和BERT的差异

  • 1. 构建模块差异:

    GPT⑵是通过transformer解码器模块构建的,而BERT是通过transformer的编码器模块构建的。

    GPT⑵采取的是无监督训练方法,而BERT则是通过有监督训练。

  • 2. 模型利用领域差异:

    GPT⑵在文本生成上有着冷艳的表现,能够生成上下文联贯性和情感一致性较好的文本。

    BERT在自然语言处理任务中表现出色,包括情感分析、问答系统等。

二、GPT⑵的使用方法和效果

  • 1. 预训练语言模型:

    GPT⑵是OpenAI发布的一个预训练语言模型,使用了大范围的英文数据进行自我监督训练。

    预训练的目标是预测下一个单词,在给定上文的情况下生成联贯的语句。

  • 2. 模型的无监督适应:

    GPT⑵的无监督适应是指将预训练好的语言模型利用到下游任务中,采取无监督的方式进行训练。

    通过扔进大量的任务数据和提示词,使得GPT⑵能够适应各种下游任务的需求。

  • 3. 生成文本的控制:

    GPT⑵具有一个名为top-k的参数,可以控制生成文本时采样最高几率单词之外的单词。

    通过设置区别的top-k值,可以实现区别的文本生成效果,从贪心算法到束搜索的宽度。

  • 4. 多任务学习的效果:

    GPT⑵经过lsh算法进行类似文档的过滤,结合BERT和GPT⑵的预训练数据,得到一个非常大的语料。

    在实验中,GPT⑵在零样本学习或少样本学习上超过了大多数模型。

三、GPT⑵的训练和利用

  • 1. 训练数据来源:

    GPT⑵的训练数据来源包括BookCorpus和800万个网页数据。

    BookCorpus是一个包括各种流派未出版小说的数据集。

  • 2. 模型利用范围:

    GPT⑵能够利用于文本生成、情感分析、问答系统等自然语言处理任务。

    可使用GPT⑵的预训练模型进行文本生成,或对其进行微调以适应特定的下游任务。

总结:

GPT⑵是一种基于transformer的预训练语言模型,具有出色的文本生成能力和适应区别下游任务的潜力。

通过无监督训练和多任务学习,GPT⑵能够生成联贯、情感一致的文本,并在各种自然语言处理任务中获得优秀的效果。

gpt 2的进一步展开说明

目前全球最早进的语言模型背后的关键洞见

这是一篇有关全球最早进的语言模型的博客。这个结构可以用来创建一个庞大的文本生成器,开发出逼真的文章。

OpenAI在“生成预训练变压器2(Generative Pretrained Transformer 2)”模型上获得的突破是个大事件。该模型利用无监督学习的方式,训练了一个具有大约150亿参数的变压器网络,这个网络在一个具有40 GB互联网智慧的文本语料库上进行了训练。

这是个很大的突破。

但固然,真正使人注视的是安第斯山脉上会说话的双角四分之一兽……

OpenAI的GPT⑵语言模型生成的文本

本文不打算讨论更好的语言模型及其影响。正如伟大的斯坦·李曾说过,“不用多说”。

在这里,我将向您展现人类最伟大的文本生成器(最少在写这篇文章时)是如何工作的,和如何只需几行代码就能够构建自己的模型。

但是需要注意的是,我们要构建的GPT⑵模型其实不会开始生成虚假的英国脱欧宣扬文案。原始模型经过数月的训练,利用了100多个GPU的计算能力。

所以,除非您具有那种计算能力,否则即便您的迷你GPT能够正确处理主谓一致,也是一项巨大的成绩。

准备好构建、训练和部署AI了吗?开始使用FloydHub的协作人工智能平台不要钱使用FloydHub

GPT⑵的真实含义

当深度学习研究出现突破时,终结者的形象伴随着相关文章的出现已成为一种常态,所以我觉得首先要澄清一些事情。

GPT⑵代表“生成预训练变压器2”(Generative Pretrained Transformer 2):

“生成”意味着该模型经过训练,可以以无监督的方式预测(或“生成”)序列中的下一个标记。换句话说,模型通过训练大量的原始文本数据,学习了创建更多文本的统计特点。

“预训练”意味着OpenAI创建了一个大而强大的语言模型,他们后来对其进行了细化训练,以适应特定的机器翻译等任务。这有点类似于在Imagenet上进行的迁移学习,但这是利用于自然语言处理(NLP)领域的。这类重新训练的方法在2018年变得相当流行,极可能是一个在2019年会继续发展的趋势。

“变压器”意味着OpenAI采取的是变压器架构,而不是RNN、LSTM、GRU或你脑海中其他由3/4个字母组成的首字母缩写。我不打算详细讨论变压器架构,由于FloydHub博客上已有一篇很好的文章介绍了它的工作原理。

“2”表示这不是他们第一次尝试这类GPT模型。

它是如何工作的

所以这里是在介绍GPT⑵之前,您需要了解的所有2018年自然语言处理的突破。我将通过一些高级数学来讲明:

2018年

OpenAI变压器v1(也就是GPT⑴)= ULMFiT + 变压器

2019年

GPT⑵ = GPT⑴ + reddit + 大量计算

等等,甚么!?

好吧,这个需要一些背景知识。另外,我还疏忽了像ELMo和BERT这样的重要理念,虽然在谈论GPT⑵时它们与主题关系不大,但这是它终究发展的关键。

如果您已了解了致使GPT⑵的技术,恭喜您!您现在基本上理解了发明顶级NLP模型所需的一切!

ChatGPT相关资讯

ChatGPT热门资讯

X

截屏,微信识别二维码

微信号:muhuanidc

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!