ChatGPTの仕組み超解説:ChatGPTの裏側大解剖|ChatGPT研究所(chatgpt transformer 仕組み)

I. Transformer的核心技术

A. Transformer的概述

Transformer作为一种文本生成技术,是一种基于注意力机制的神经网络模型。它在自然语言处理领域起到了重要的作用,并被广泛利用于机器翻译、问答系统、对话生成等任务中。通过使用自注意力机制,Transformer能够有效地捕捉输入序列中的上下文关系,从而生成流畅、准确的输出文本。

Transformer的研究历史可以追溯到2017年,在发表的论文《Attention is All You Need》中首次提出了这个模型。Transformer的出现对传统的循环神经网络和卷积神经网络进行了极大的改进,引发了全部自然语言处理领域的革命。

B. Transformer的Attention机制

Transformer的核心之一是Attention机制。Attention机制可以理解为一种对输入序列中区别位置进行加权的机制,用来指点模型生成输出文本时的关注点。通过Attention机制,Transformer能够对输入的上下文信息进行建模,准确地理解和生成输出文本。

Attention机制的原理是通过计算序列中区别位置的相关性得分,然后将这些得分作为权重进行加权平均,从而给出每一个位置的注意力权重。这类注意力权重能够帮助模型更高效地聚焦于重要的信息,并疏忽不相关的内容。

使用Attention机制的优势在于它能够捕捉到输入序列中的长距离依赖关系,不再受限于传统的固定窗口大小或固定距离的局部上下文信息。这使得Transformer在处理长文本时更加高效和准确。

II. ChatGPT的介绍

A. ChatGPT的定义和利用

ChatGPT是一种会话型AI模型,它使用GPT(Generative Pre-trained Transformer)作为基础模型,并针对对话生成任务进行了改进和优化。与传统的标准GPT模型相比,ChatGPT更合适用于生成连续的对话响应,并具有更好的语义联贯性和上下文一致性。

ChatGPT的利用场景非常广泛,包括智能客服系统、虚拟助手、聊天机器人等。它可以根据用户的输入生成自然、流畅的回答,实现与用户的自然对话交互。

B. ChatGPT与Transformer的关系

ChatGPT是基于Transformer架构的,在Transformer的基础上进行了改进和优化。它采取了多层的自注意力机制,能够更好地处理输入序列中的上下文关系和依赖性。

ChatGPT还引入了对话历史的建模,使得模型可以记住之前的对话内容,并根据对话上下文生成联贯的回答。这使得模型能够更好地理解用户的意图和需求,并生成更加准确、具有上下文一致性的回复。

III. ChatGPT和Transformer的工作原理

A. 文本生成的进程

在ChatGPT和Transformer中,文本生成的进程首先触及输入文本的编码和嵌入。输入文本被编码成离散的符号序列,并通过嵌入层将每一个符号转换为高维向量表示,以便模型能够理解和处理。

Transformer模型的层次结构包括多个编码器和解码器层。编码器负责对输入文本进行编码,将其转换为抽象的语义表示。解码器负责根据编码器的输出和之前的生成文本来生成下一个单词或符号。

B. 会话型AI的处理

在会话型AI中,对话的处理包括上下文的处理和记忆。模型需要记住之前的对话历史,并根据对话上下文进行回答的生成。

上下文的处理可以通过将之前的对话文本和当前的输入文本进行拼接,构成一个更长的上下文序列。模型可以根据这个上下文序列来理解用户的问题,并生成适合的回答。

对话历史的建模可以通过引入遗忘机制和门控机制来实现。模型可以选择性地遗忘一些不重要的对话内容,并根据用户的输入和上下文来更新对话的状态和生成回答。

IV. ChatGPT和Transformer的利用

A. 自然语言处理领域

ChatGPT和Transformer在自然语言处理领域有着广泛的利用。它们可以用于文本生成、机器翻译、问答系统等任务。通过学习大量的语言数据,ChatGPT和Transformer可以生成流畅、准确的自然语言文本。

例如,在机器翻译任务中,ChatGPT和Transformer可以将一种语言的文本翻译成另外一种语言,在保持句子的准确性和流畅性的同时,传递文本的语义和上下文信息。

B. 其他领域的利用

ChatGPT和Transformer还可以在其他领域中利用,如语音辨认和生成、图象处理和文本生成相结合等。

在语音辨认任务中,ChatGPT和Transformer可以将音频信号转换成文本,并生成相应的自然语言回答。在图象处理和文本生成相结合的任务中,ChatGPT和Transformer可以根据图象内容生成相应的文本描写。

chatgpt transformer 仕組み的进一步展开说明

话题的AI聊天–了解ChatGPT背后的故事

在本文中,我们将对ChatGPT所使用的机器学习模型进行详细介绍。从大范围语言模型的引入开始,我们将介绍GPT⑶的学习机制,和使ChatGPT成为特殊的聊天工具的创新方法——基于人类反馈的强化学习。

大范围语言模型(LLM)

ChatGPT是一种基于大范围语言模型(LLM)的自然语言处理模型。LLM可以搜集大量的文本数据,并推断出文章中关键词之间的关系。随着计算能力的提升,最近几年来LLM不断发展。LLM的能力取决于输入数据的量和变量的增加。

语言模型最基本的学习方法之一是预测一系列单词中的某个单词。最多见的学习方法包括预测下一个单词(next-token-prediction)和预测隐藏单词(masked-language-modeling)。

LLM通过LSTM(长短时记忆)模型来开发基本的处理技术。模型通过从周围的文本上下文中统计上下文中最可能的单词来填充空白。但是,这类模型有两个重要的限制。

首先,它没法对周围的单词进行加权,与其他单词相比。例如,在上述示例中,”浏览”与”讨厌”最相关,但在数据库中,”Sam”是一个酷爱浏览的人,因此模型可能更加强调”Sam”,而不是”讨厌”,并选择”喜欢”而不是”讨厌”。

其次,输入数据不是整体处理,而是按顺序逐一处理。换句话说,当LSTM学习时,上下文的宽度被固定,扩大仅限于单个输入的几个步骤。因此,对单词之间的关系和推断出的意义的复杂性存在限制。

为了解决这个问题,2017年,Google Brain团队引入了transformers。与LSTM区别,transformers可以同时处理所有输入数据。通过使用自注意机制,该模型可以根据语言序列中的任意位置与区别部份的输入数据相关联,并对其进行加权。这个功能极大改良了对概念嵌入的处理,并实现了对非常大的数据集进行处理的能力。

GPT和自我感知

生成预训练变压器(GPT)模型最初在2018年作为GPT⑴由OpenAI首次引入。该模型在2019年发展为GPT⑵,在2023年演化为GPT⑶,并最近在2023年继续发展为InstructGPT和ChatGPT。GPT模型进展的最大突破是计算能力的提升,GPT⑶可使用比GPT⑵更多的数据进行训练,并具有履行更广泛任务的能力。

所有的GPT模型都具有处理输入文本的编码器和生成输出文本的解码器,并使用翻译机架构。编码器和解码器都具有多头自注意力机制,使模型能够为输入序列的区别部份赋予区别的权重,以推测语义和上下文。另外,编码器利用了掩码语言建模,以理解单词之间的关系,并生成更容易理解的响应。

驱动GPT的自我注意力机制以将令牌(单词、句子或其他文本片断的组合)转换为表示令牌重要性的系数(向量)。为此,模型履行以下步骤:

  1. 为输入字符串的每一个令牌创建查询、键和值向量。
  2. 计算步骤1中的查询项与其他令牌的重要性之间的类似度,并将其作为步骤1查询项和其他令牌的差异。
  3. 将步骤2的输出输入 softmax 函数中,以生成归一化的权重。
  4. 将步骤3生成的权重与每一个令牌的值向量相乘,以生成表示令牌重要性的终究向量。

GPT所采取的多头注意力机制是对自我注意力的扩大。模型可以同时履行屡次上述步骤1⑷的运算,每次生成查询、键和值向量的新线性预测。通过这类方式扩大自我感知能力,模型能够理解输入数据中的更细微的意义和更复杂的关系。

GPT⑶在自然语言处理方面获得了显著的进展,但在符适用户意图方面存在一定的限制。例如,GPT⑶可能会输出以下内容:

  • 缺少对”善意”的理解,即不遵守用户明确的唆使。
  • 包括不存在或毛病的事实,并产生回避现实的回答。
  • 难以让人类理解模型是如何得出特定决策或预测的。
  • 包括有害、使人不悦或传播毛病信息的内容。

为了解决LLM普遍存在的问题,ChatGPT引入了一种创新的学习方法。

ChatGPT

ChatGPT是InstructGPT的进一步发展,通过将人类反馈整合到学习进程中,引入了一种使模型输出更符适用户意图的新方法。关于基于人类反馈的强化学习(RLHF),可以在OpenAI于2023年发表的论文 “Training language models to follow instructions with human feedback” 中找到更详细的说明,以下是该论文的简化版。

步骤1:教师监督的修正(SFT)模型

最初的开发中,我们雇用了40名合同员工,创建了一个教师监督训练数据集,对GPT⑶模型进行微调。输入(提示)是从用户实际在Open API中输入的内容中搜集的,并且被标记。标记者被要求为提示编写正确的回答,并为每一个输入生成最好输出。然后,使用这个新的教师监督数据集对GPT⑶模型进行微调,创建了GPT⑶.5(也被称为SFT模型)。

为了最大化提示数据集的多样性,每一个用户ID只能生成200个提示,并且具有相同的共同前缀的提示都被删除。最后,删除包括可以辨认个人身份信息(PII)的所有提示。

在从OpenAI API搜集了提示后,标记者被要求创建示例提示以弥补其中最少的种别。触及的种别以下:

  • 简单提示:任意问题。
  • 少数意见:包括多个问题和答案对的唆使。
  • 基于用户的提示:针对OpenAI API要求的特定用例。

在生成响应时,标记者被要求尽可能推测出用户的唆使是甚么。论文中对提示询问信息的三种主要方式进行了解释:

  • 直接询问:请告知我关于…的信息。
  • 少数意见:如果有这两个故事的例子,请再写一个关于相同主题的故事。
  • 继续:如果有故事的开始,请将其完成。

在从OpenAI API搜集了提示并由标记员提供手动提示以后,教师监督模型取得了13000条可用于进行SFT模型训练的输入输出样本。

步骤2:嘉奖(reward)模型

在训练SFT模型后,使用该模型生成更适合的回答。此模型采取通过一系列提示和回答作为输入,并输出称为嘉奖的分数的方式学习的。这个模型是为了利用强化学习(参见步骤3),以最大化嘉奖来生成回答。

为了训练嘉奖模型,标记员会被提供与一个输入提示对应的4到9个SFT模型的输出。然后,标记员被要求将这些输出从最好到最差进行排名,以创建以下类型的输出排名组合:

各组合将作为单独的数据项包括在模型中,否则会致使过度拟合。为了解决这个问题,我们构建了一个模型,将每一个排名组合作为一个批量数据点进行训练。

步骤3:强化学习模型

在最后一步中,向模型提供随机提示并返回响应。该响应是使用步骤2学习的”策略”生成的,这个策略是指模型学习为了到达目标而采取的策略,即最大化嘉奖。通过基于步骤2开发的嘉奖模型,决定每一个提示和回答对的扩大嘉奖值。然后,嘉奖将向模型提供反馈并使策略进化。

2017年,Schulman等人提出了一种称为Proximal Policy Optimization(PPO)的方法,该方法在每次生成回答时更新模型的策略。PPO使用SFT模型生成的输出中的令牌级别的Kullback-Leibler(KL)惩罚。KL散度是衡量两个散布函数之间类似性的指标,并对极真个距离施加惩罚。在这类情况下,使用KL惩罚可以免模型从步骤1学习的SFT模型的输出偏离,从而避免嘉奖模型过度优化,使其阔别人类意图数据集。

在步骤2和步骤3之间可以重复进行,但实际上很少这样做。

模型评估

模型评估是通过为模型提供在训练进程中从未见过的测试集来进行的。测试集用于判断模型会不会比之前的GPT⑶模型更符合一致性。

  • 实用性:模型能够猜想用户唆使并遵守唆使的能力。标记员更喜欢InstructGPT的输出而不是GPT⑶,相比之下,InstructGPT的输出比GPT⑶更符适用户意图的程度为85±3%。
  • 有效性:模型毛病辨认的偏向。当使用PPO模型根据TruthfulQA数据集进行评估时,生成的答案在准确性和信息量方面略有增加。
  • 无害性:模型避免包括不适当、轻蔑或谩骂内容的能力。使用RealToxicityPrompts数据集对有害性进行了测试。测试分为三个条件:
  1. 要求使用敬语:明显减少有害回应。
  2. 没有敬语的教给回答:有害回答没有明显的变化。
  3. 要求生成有害回答:实际上,有害性回答明显多于GPT⑶模型。

有关创建ChatGPT和InstructGPT所使用的方法的详细信息,请参阅OpenAI发表的原始论文!Training language models to follow instructions with human feedback, 2023 https://arxiv.org/pdf/2203.02155.pdf

最后

您对此会不会满意?我们将继续进行ChatGPT/AI相关信息的发布,敬请关注(@ctgptlb)!不要错过身处这一革命性技术最前沿的机会!

chatgpt transformer 仕組み的常见问答Q&A

问题1:ChatGPT使用的機器學習模型是什麼?

答案:ChatGPT使用的機器學習模型是「Transformer」。Transformer是一種基於注意力機制的神經網絡架構,主要用於自然語言處理任務。

  • Transformer利用注意力機制來處理輸入文本的各個位置之間的關聯性,並且可以同時處理輸入序列的所有位置。
  • 相比於傳統的循環神經網絡(RNN)模型,Transformer具有並行處理能力,可以更高效地處理長文本序列。
  • Transformer通過多層自注意機制來捕捉輸入序列中的語義依賴關係,並且具有較強的表示能力。

問題2:Transformer模型在ChatGPT中的作用是什麼?

答案:在ChatGPT中,Transformer模型起著關鍵的作用。它通過以下方式影響ChatGPT:

  • Transformer模型提供了ChatGPT進行文本生成和相應的能力,使其能夠根據輸入的對話進行回答和生成新的對話。
  • Transformer模型通過學習大量的上下文關聯性,可以生成更加具有語言流暢性和連貫性的回答。
  • Transformer模型的強大表達能力使得ChatGPT能夠理解並生成多樣化的對話內容,增強了其對話能力和互動性。

問題3:Transformer模型的特點是什麼?

答案:Transformer模型具有以下特點:

  • Transformer模型通過注意力機制(Attention)來捕捉輸入序列中的關聯性,能夠同時處理輸入序列的所有位置,並且可以有效地處理長文本序列。
  • 相比於傳統的循環神經網絡(RNN)模型,Transformer模型具有並行處理能力,能夠更高效地處理大規模的自然語言處理任務。
  • Transformer模型通過多層自注意機制來捕捉輸入序列的語義依賴關係,具有較強的表示能力,能夠生成更加流暢和連貫的文本。

ChatGPT相关资讯

ChatGPT热门资讯

X

截屏,微信识别二维码

微信号:muhuanidc

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!