ChatGPT

ChatGPT是 OpenAI 开发的一款基于GPT模型的聊天机器人,于2022年11月推出。它可以生成自然、连贯和语义丰富的对话,为用户提供与真人相似的对话体验。ChatGPT 发布后,OpenAI 的估值已升至 290 亿美金,上线两个月后,用户数量达到 1 亿。

"ChatGPT"的名称中,"GPT"代表"生成预训练Transformer",Generative Pre-trained Transformer。这是OpenAI使用的一种深度学习模型类型,用于处理自然语言文本。"Chat"指的是这款模型被特别优化过,可以用于产生类人的对话。

具体来说,ChatGPT模型是通过大量的网络文本进行训练的,这使得它可以了解大量的人类知识,从文学、科学到流行文化等各个领域的内容。然而,虽然它可以生成看起来像是理解了输入的回答,但其实它并不理解输入的内容。这是因为ChatGPT是基于统计学习和模式识别,而不是基于真正的理解。

此外,虽然ChatGPT在生成对话方面有出色的表现,但它仍有一些限制。例如,它可能会产生不准确或具有误导性的信息,有时可能无法理解复杂的问题,也可能过于偏向生成"中性"的回答。然而,OpenAI一直在不断更新和优化模型,以改善这些问题。

总的来说,ChatGPT是一款有趣并具有潜力的工具,它可以用于各种场景,如内容创作、编程帮助、学习辅导等,同时也为AI的未来提供了一个令人兴奋的预览。

最初,该程序使用基于 GPT-3.5 架构的大型语言模型并通过强化学习进行训练。随后推出 GPT4,作为付费服务使用。

对于 ChatGPT 的巨大成功,OpenAI 团队也有几分感到不解,因为 ChatGPT 使用的技术都不是新的,ChatGPT 使用了微调版的 GPT-3.5,而 GPT-3.5 是 2020 年发布的 000.wiki/GPT-3 的更新版,OpenAI 在 2022 年 1 月发布了微调版 GPT-3.5 的预览。相关 API 也早就发布了,不过这些都不是面向公众的。

主题

ChatGPT Plugins
ChatGPT Plus
免费 ChatGPT 资源
Awesome ChatGPT

网络资源

The inside story of how ChatGPT was built from the people who made it | MIT Technology Review

- 在 2020 年 7 月,OpenAI 发布了模型索引为的 davinci 的初代 000.wiki/GPT-3 论文,从此它就开始不断进化。

- 在 2021 年 7 月,Codex 的论文发布,其中初始的 Codex 是根据(可能是内部的)120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演变成 OpenAI API 中的 code-cushman-001。

- 在 2022 年 3 月,OpenAI 发布了指令微调 (instruction tuning) 的论文,其监督微调 (supervised instruction tuning) 的部分对应了 davinci-instruct-beta 和 text-davinci-001。

- 在 2022 年 4 月至 7 月的,OpenAI 开始对 code-davinci-002 模型进行 Beta 测试,也称其为 Codex。然后 code-davinci-002、text-davinci-003 和 ChatGPT 都是从 code-davinci-002 进行指令微调得到的。详细信息请参阅 OpenAI 的模型索引文档。

- 尽管 Codex 听着像是一个只管代码的模型,但 code-davinci-002 可能是最强大的针对自然语言的 GPT-3.5 变体(优于 text-davinci-002 和 -003)。code-davinci-002 很可能在文本和代码上都经过训练,然后根据指令进行调整(将在下面解释)。

- 然后 2022 年 5-6 月发布的 text-davinci-002 是一个基于 code-davinci-002 的有监督指令微调 (supervised instruction tuned) 模型。在 text-davinci-002 上面进行指令微调很可能降低了模型的上下文学习能力,但是增强了模型的零样本能力(将在下面解释)。

- 然后是 text-davinci-003 和 ChatGPT,它们都在 2022 年 11 月发布,是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。

- text-davinci-003 恢复了(但仍然比 code-davinci-002 差)一些在 text-davinci-002 中丢失的部分上下文学习能力(大概是因为它在微调的时候混入了语言建模) 并进一步改进了零样本能力(得益于 RLHF)。另一方面,ChatGPT 似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力。

- 总的来说,在 2020 - 2021 年期间,在 code-davinci-002 之前,OpenAI 已经投入了大量的精力通过代码训练和指令微调来增强 GPT-3。当他们完成 code-davinci-002 时,所有的能力都已经存在了。很可能后续的指令微调,无论是通过有监督的版本还是强化学习的版本,都会做以下事情(稍后会详细说明):

- 指令微调不会为模型注入新的能力 —— 所有的能力都已经存在了。指令微调的作用是解锁 / 激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级(基础的能力是通过预训练注入的)。

- 指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习,如 text-davinci-003,有些更擅长对话,如 ChatGPT。

- 指令微调通过牺牲性能换取与人类的对齐(alignment)。OpenAI 的作者在他们的指令微调论文中称其为「对齐税」 (alignment tax)。

- 许多论文都报道了 code-davinci-002 在基准测试中实现了最佳性能(但模型不一定符合人类期望)。在 code-davinci-002 上进行指令微调后,模型可以生成更加符合人类期待的反馈(或者说模型与人类对齐),例如:零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题。

网络资源


本文作者:Maeiee

本文链接:ChatGPT

版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!


喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!