GPT模型简史


发布于 2025-01-05 / 28 阅读 / 0 评论 /
GPT大模型发展历程

持续跟进OpenAI的GPT模型版本发布过程。

1.GPT-1(2018年中)

2018年年中,就在Transformer架构诞生一年后,OpenAI发表了一篇题为“Improving Language Understanding by Generative Pre-Trainning”的论文,作者是Alec Radford等人。这篇论文介绍了GPT,也被称为GPT-1。

GPT-1出现之前,构建高性能NLP神经网络的常用方法是利用监督学习。这种学习技术使用大量的手动标记数据。

这种需要大量标记良好的监督数据,限制了监督学习的性能,因为要生成这样的数据集,难度很大而且成本高昂。

GPT-1提出了一种新的学习过程,引入无监督的预测训练步骤,不需要标记数据。由于采用了并行化的Transformer架构,预训练步骤是在大量数据上进行的。

GPT-1模型使用了BookCorpus数据集,包含11000本未出版的图书的文本。

GPT-1在各种基本的文本补全任务中是有效的。但GPT-1是小模型,无法再不经过微调的情况下执行复杂任务。

GPT-1的架构包括一个解码器,具有1.17亿个参数。

2.GPT-2(2019年初)

2019年初,OpenAI提出了GPT-2,其参数量和训练数据集的规模大约是GPT-1的10倍。

GPT-2具有15亿参数,训练文本为40GB。

2019年11月,OpenAI发布了完整版的GPT-2

GPT-2表明,使用更大的数据集训练更大的语言模型可以提高语言模型的任务处理能力,并使其在许多任务中超越已有模型。它还表明,更大的语言模型能够更好地处理自然语言。

3.GPT-3(2020年6月)

2020年6月,OpenAI发布了GPT-3。

GPT-3和GPT-2之间主要区别在于模型的大小和用于训练的数据量。

GPT-3有1750亿个参数,使用更广泛的数据集,包括Common Crawl和维基百科。这个数据集包括来自网站、书籍和文章的内容,使得GPT-3能够更深入地理解语言和上下文。

GPT-3在各种语言相关任务中展示更强的性能,在文本生成方面展示更强的连贯性和创造力。它甚至能够编写代码片段,如SQL查询,并执行其他智能任务。

GPT-3取消了微调步骤,这在之前的GPT模型是必须的。

GPT-3有个问题,最终用户提供的任务与模型在训练过程中所见到的任务不一致。因此模型可能说错话,甚至是有害的话。

3.1.InstructGTP(2021年)

2021年,OpenAI发布了GTP-3模型的新版本,取名为InstructGTP。

InstructGTP通过强化学习和人类反馈进行优化。这意味着InstructGTP模型利用反馈来学习和不断改进。使得模型能够从人类指令中学习,同时使其真实性更大,伤害性更小。

3.2.GPT-3.5(2022年11月)

2022年3月,OpenAI发布了GPT-3的新版本,新模型可以编辑文本或向文本中插入内容。所用训练数据截止2021年6月。

在2022年11月底,OpenAI称这个模型为GPT-3.5

3.3.Codex模型(2023年3月)

OpenAI还提出了Codex模型,这是一个在数十亿行代码上进行微调的GPT-3模型,给Github Copilot这款自动化编程工具赋予强大的能力,为诸多文本编辑器的开发人员提供帮助。

Codex模型在2023年3月正式被OpenAI弃用。OpenAI建议用户从Codex切换到GPT-3.5 Turbo或GPT-4模型上。

3.4.ChatGPT(2022年11月)

2022年11月,OpenAI正式推出ChatGPT,并将其作为实验性对话式模型。

ChatGPT是由LLM驱动的应用程序,而不是真正的LLM。ChatGPT背后的LLM是GPT-3.5 Turbo

4.GPT-4(2023年3月)

2023年3月,OpenAI发布了GPT-4。

GPT-4是第一个能够同时接收文本和图像的多模态模型。