定义:
2018年6月发表,OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”《用生成式预训练提高模型的语言理解力》, 推出了具有1.17亿个参数的GPT-1(Generative Pre-training , 生成式预训练)模型.
模型架构
GPT-1的训练包括两阶段过程: 预训练 + 微调
GPT-1 模型的关键参数:
参数 | 取值 |
---|---|
transformer 层数 | 12 |
特征维度 | 768 |
transformer head 数 | 12 |
总参数量 | 1.17 亿 |
定义:
2019年2月, OpenAI推出了GPT-2, 同时, 他们发表了介绍这个模型的论文“Language Models are Unsupervised Multitask Learners” (语言模型是无监督的多任务学习者).
GPT-2训练核心思想
预测:
定义:
2020年5月, OpenAI发布了GPT-3, 同时发表了论文“Language Models are Few-Shot Learner”《小样本学习者的语言模型》.
在模型结构上,GPT-3 延续使用 GPT 模型结构,但是引入了 Sparse Transformer 中的 sparse attention 模块(稀疏注意力)。
sparse attention 与传统 self-attention(称为 dense attention) 的区别在于:
dense attention:每个 token 之间两两计算 attention,复杂度 O(n²) sparse attention:每个 token 只与其他 token 的一个子集计算 attention,复杂度 O(n*logn)
GPT-3训练核心思想
预测:
定义:
ChatGPT是一种基于GPT-3的聊天机器人模型. 它旨在使用 GPT-3 的语言生成能力来与用户进行自然语言对话. 例如, 用户可以向 ChatGPT 发送消息, 然后 ChatGPT 会根据消息生成一条回复.
三大训练原理:
概述:
ChatGLM-6B 是清华大学提出的一个开源、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。
训练目标
相比原始Decoder模块,模型结构有如下改动点:
配置 | 数据 |
---|---|
参数 | 6.2B |
隐藏层维度 | 4096 |
层数 | 28 |
注意力头数 | 32 |
训练数据 | 1T |
词表大小 | 130528 |
最大长度 | 2048 |
2.7 迭代版本
概述:
LLaMA(Large Language Model Meta AI),由 Meta AI 于2023年发布的一个开放且高效的大型基础语言模型,共有 7B、13B、33B、65B(650 亿)四种版本。
LLaMA训练数据是以英语为主的拉丁语系,另外还包含了来自 GitHub 的代码数据。训练数据以英文为主,不包含中韩日文,所有训练数据都是开源的。
关于tokenizer,LLaMA 的训练语料以英文为主,使用了BPE分词算法作为 tokenizer,词表大小只有 32000。词表里的中文 token 很少,只有几百个,LLaMA tokenizer 对中文分词的编码效率比较低。
激活函数:将 ReLU 非线性替换为 SwiGLU 激活函数。
配置 | 数据 |
---|---|
参数 | 6.7B |
隐藏层维度 | 4096 |
层数 | 32 |
注意力头数 | 32 |
训练数据 | 1T |
词表大小 | 32000 |
最大长度 | 2048 |
迭代版本
LLaMA 2(Open Foundation and Fine-Tuned Chat Models):LLaMA 2是LLaMA模型的升级迭代版本,其模型架构基本和llama一样。不同点:
概述
Qwen大语言模型是由阿里巴巴训练并开源的一系列大语言模型。最早于2023年8月份开源70亿参数规模,随后几个月时间内陆续开源了4个不同规模版本的模型,最低参数18亿,最高参数720亿
训练目标
模型配置(Qwen-7B-Instruct)
配置 | 数据 |
---|---|
参数 | 7B |
隐藏层维度 | 3584 |
层数 | 28 |
注意力头数 | 28个query、4个key-value |
训练数据 | 1.2T |
词表大小 | 151936 |
最大长度 | 32768 |
概述:
Baichuan-7B由百川智能于2023年6月发布的一个开放且可商用的大型预训练语言模型,其支持中英双语,是在约 1.2万亿 (1.2T) 个 token上训练的70亿参数模型。
在训练目标上,Baichuan-7B 的训练目标也是语言模型,即根据已有的上文去预测下一个词。
配置 | 数据 |
---|---|
参数 | 7B |
隐藏层维度 | 4096 |
层数 | 32 |
注意力头数 | 32 |
训练数据 | 1.2T |
词表大小 | 64000 |
最大长度 | 4096 |