GPT⑵: How to Build “The AI That’s Too Dangerous to Release”(gpt 2)
GPT⑵模型(transformer语言模型可视化):一文了解GPT⑵的使用和效果
一、GPT⑵和BERT的差异
-
1. 构建模块差异:
GPT⑵是通过transformer解码器模块构建的,而BERT是通过transformer的编码器模块构建的。
GPT⑵采取的是无监督训练方法,而BERT则是通过有监督训练。
-
2. 模型利用领域差异:
GPT⑵在文本生成上有着冷艳的表现,能够生成上下文联贯性和情感一致性较好的文本。
BERT在自然语言处理任务中表现出色,包括情感分析、问答系统等。
二、GPT⑵的使用方法和效果
-
1. 预训练语言模型:
GPT⑵是OpenAI发布的一个预训练语言模型,使用了大范围的英文数据进行自我监督训练。
预训练的目标是预测下一个单词,在给定上文的情况下生成联贯的语句。
-
2. 模型的无监督适应:
GPT⑵的无监督适应是指将预训练好的语言模型利用到下游任务中,采取无监督的方式进行训练。
通过扔进大量的任务数据和提示词,使得GPT⑵能够适应各种下游任务的需求。
-
3. 生成文本的控制:
GPT⑵具有一个名为top-k的参数,可以控制生成文本时采样最高几率单词之外的单词。
通过设置区别的top-k值,可以实现区别的文本生成效果,从贪心算法到束搜索的宽度。
-
4. 多任务学习的效果:
GPT⑵经过lsh算法进行类似文档的过滤,结合BERT和GPT⑵的预训练数据,得到一个非常大的语料。
在实验中,GPT⑵在零样本学习或少样本学习上超过了大多数模型。
三、GPT⑵的训练和利用
-
1. 训练数据来源:
GPT⑵的训练数据来源包括BookCorpus和800万个网页数据。
BookCorpus是一个包括各种流派未出版小说的数据集。
-
2. 模型利用范围:
GPT⑵能够利用于文本生成、情感分析、问答系统等自然语言处理任务。
可使用GPT⑵的预训练模型进行文本生成,或对其进行微调以适应特定的下游任务。
总结:
GPT⑵是一种基于transformer的预训练语言模型,具有出色的文本生成能力和适应区别下游任务的潜力。
通过无监督训练和多任务学习,GPT⑵能够生成联贯、情感一致的文本,并在各种自然语言处理任务中获得优秀的效果。
gpt 2的进一步展开说明
目前全球最早进的语言模型背后的关键洞见
这是一篇有关全球最早进的语言模型的博客。这个结构可以用来创建一个庞大的文本生成器,开发出逼真的文章。
OpenAI在“生成预训练变压器2(Generative Pretrained Transformer 2)”模型上获得的突破是个大事件。该模型利用无监督学习的方式,训练了一个具有大约150亿参数的变压器网络,这个网络在一个具有40 GB互联网智慧的文本语料库上进行了训练。
这是个很大的突破。
但固然,真正使人注视的是安第斯山脉上会说话的双角四分之一兽……
OpenAI的GPT⑵语言模型生成的文本
本文不打算讨论更好的语言模型及其影响。正如伟大的斯坦·李曾说过,“不用多说”。
在这里,我将向您展现人类最伟大的文本生成器(最少在写这篇文章时)是如何工作的,和如何只需几行代码就能够构建自己的模型。
但是需要注意的是,我们要构建的GPT⑵模型其实不会开始生成虚假的英国脱欧宣扬文案。原始模型经过数月的训练,利用了100多个GPU的计算能力。
所以,除非您具有那种计算能力,否则即便您的迷你GPT能够正确处理主谓一致,也是一项巨大的成绩。
准备好构建、训练和部署AI了吗?开始使用FloydHub的协作人工智能平台不要钱使用FloydHub
GPT⑵的真实含义
当深度学习研究出现突破时,终结者的形象伴随着相关文章的出现已成为一种常态,所以我觉得首先要澄清一些事情。
GPT⑵代表“生成预训练变压器2”(Generative Pretrained Transformer 2):
“生成”意味着该模型经过训练,可以以无监督的方式预测(或“生成”)序列中的下一个标记。换句话说,模型通过训练大量的原始文本数据,学习了创建更多文本的统计特点。
“预训练”意味着OpenAI创建了一个大而强大的语言模型,他们后来对其进行了细化训练,以适应特定的机器翻译等任务。这有点类似于在Imagenet上进行的迁移学习,但这是利用于自然语言处理(NLP)领域的。这类重新训练的方法在2018年变得相当流行,极可能是一个在2019年会继续发展的趋势。
“变压器”意味着OpenAI采取的是变压器架构,而不是RNN、LSTM、GRU或你脑海中其他由3/4个字母组成的首字母缩写。我不打算详细讨论变压器架构,由于FloydHub博客上已有一篇很好的文章介绍了它的工作原理。
“2”表示这不是他们第一次尝试这类GPT模型。
它是如何工作的
所以这里是在介绍GPT⑵之前,您需要了解的所有2018年自然语言处理的突破。我将通过一些高级数学来讲明:
2018年
OpenAI变压器v1(也就是GPT⑴)= ULMFiT + 变压器
2019年
GPT⑵ = GPT⑴ + reddit + 大量计算
等等,甚么!?
好吧,这个需要一些背景知识。另外,我还疏忽了像ELMo和BERT这样的重要理念,虽然在谈论GPT⑵时它们与主题关系不大,但这是它终究发展的关键。
如果您已了解了致使GPT⑵的技术,恭喜您!您现在基本上理解了发明顶级NLP模型所需的一切!