为什么说大模型微调是每个人都必备的核心技能？-轻识

▼最近直播超级多，预约保你有收获

近期直播：《基于开源 LLM 大模型的微调（Fine tuning）实战》

0 —

为什么要对 LLM 大模型进行微调（Fine tuning）？

LLM 大模型（比如：ChatGPT-4.0）已经很强大了，为什么还需要微调？

主要有如下 4 点原因：

第一、缺乏专有数据，比如：企业内部的私有数据。

第二、缺乏最新数据，比如：GPT-4的训练数据截止到2021年9月。

第三、预训练成本高，比如：GPG-3 预训练成本为140万美金。

第四、提升数据安全性，比如：企业私有数据是不能传递给第三方大模型的，基于开源大模型的微调才能满足业务的需求。

— 1 —

如何对 LLM 大模型进行微调（Fine tuning）？

从参数规模的角度，对大模型进行微调（Fine tuning）有两条技术路线：

第一、对全量的参数，进行全量的训练，叫做全量微调 Full Fine Tuning，简称 FFT。

第二、只对部分参数进行训练，叫做 Parameter-Efficient Fine Tuning，简称 FEFT。

FFT 的原理，就是用特定的数据，对 LLM 大模型进行训练，将 W 变成 W`，W` 相比 W ，最大的改进点就是在上述特定数据领域的表现会好很多。

但 FFT 也会带来一些问题，主要有以下两个：

第一、训练的成本会比较高，因为微调的参数量跟预训练的是一样多；

第二、灾难性遗忘（Catastrophic Forgetting），用特定训练数据去微调可能会把这个领域的表现变好，但也可能会把原来表现好的别的领域的能力变差。比如：把 LLM 大模型的编程能力进行了调优，有可能会导致在文学创造等方面能力降低，如何在微调的过程中，同时兼顾各个能力维度，目前也是学术界研究的热点之一。

PEFT 主要解决就是 FFT 存在的上述两个问题，PEFT 也是目前比较主流的微调方案。

从训练数据的来源和训练方法的角度，LLM 大模型的微调有以下几条技术路线：

第一、监督式微调 Supervised Fine Tuning，简称 SFT，这个方案主要是用人工标注的数据，用传统机器学习中监督学习的方法，对 LLM 大模型进行微调。

第二、基于人类反馈的强化学习微调 Reinforcement Learning from Human Feedback，简称 RLHF。这个方案的主要特点是把人类反馈，通过强化学习方式，引入到对 LLM 大模型的微调中，让 LLM 大模型生成结果，更加符合人类的期望。

第三、基于 AI 反馈的强化学习微调 Reinforcement Learning with AI Feedback)，简称 RLAIF。这个原理和 RLHF 类似，但是反馈的来源是 AI。这里是想解决反馈系统的效率问题，因为收集人类反馈，相对来说成本会比较高、效率比较低。比如：ChatGPT-4.0 通过训练奖励模型来对 LLM 大模型的回答进行打分，激励 ChatGPT-4.0 正向迭代优化。

不同的分类角度，只是侧重点不一样，对同一个 LLM 大模型的微调，也不局限于某一个方案，可以多个方案组合调优。

微调的最终目的，是能够在可控成本的前提下，尽可能地提升 LLM 大模型在特定领域的综合能力。

— 2 —

主流部分参数 PEFT 微调（Fine tuning）方案剖析

第一、Prompt Tuning，它的出发点Prompt-tuning 给每个任务定义了自己的 Prompt，拼接到数据上作为输入，同时 freeze 预训练模型进行训练，在没有加额外层的情况下，可以看到随着模型体积增大效果越来越好，最终追上了 LLM 大模型精调的效果。

第二、Prefix Tuning，基于 Prompt Engineering 的实践表明，在不改变 LLM 大模型的前提下，在 Prompt 中添加适当的条件，可以引导LLM 大模型有更加出色的表现。

Prefix Tuning 和 Prompt Tuning 是类似的，只是在具体实现上有一些差异。

Prompt Tuning 是在 Embedding 嵌入环节，在输入序列 X 前面加特定的Token。

而 Prefix Tuning 是在 Transformer 的 Encoder 和 Decoder 的网络中都加一些特定的前缀。

具体是将 Y = WX 中的 W，变成 W` = [Wp; W]，Y = W`X。

Prefix Tuning 保证了基座大模型本身是不变的，在推理的过程中，按需在 W 前面拼接一些参数。

第三、LoRA，LoRA 的实现思想很简单，如下图所示，就是冻结一个预训练模型的矩阵参数，并选择用 A 和 B 矩阵来替代，在下游任务时只更新 A 和 B。

LoRA 有一个假设：我们现在看到的这些 LLM 大语言模型，它们都是被过度参数化的。而过度参数化的大模型背后，都有一个低维的本质模型。

大模型参数很多，但并不是所有的参数都是发挥同样作用的，大模型中一部分参数，是非常重要的，是影响大模型生成结果的关键参数，这部分关键参数就是上面提到的低维的本质模型。

结合上图来看，LoRA 的实现包括以下几步：

首先, 要适配特定的下游任务，要训练一个特定的模型，将 Y=WX 变成 Y=(W+∆W)X，这里面 ∆W 主是我们要微调得到的结果；

其次，将 ∆W 进行低维分解 ∆W=AB (∆W为 m * n 维，A 为 m * r 维，B 为 r * n 维，r 就是上述假设中的低维)；

接下来，用特定的训练数据，训练出 A 和 B 即可得到 ∆W，在推理的过程中直接将 ∆W 加到 W 上去，再没有额外的成本。

另外，如果要用 LoRA 适配不同的场景，切换也非常方便，做简单的矩阵加法即可：(W + ∆W) - ∆W + ∆W`。

第四、QLoRA，结合上述流程

QLoRA 就是量化版的 LoRA，量化，是一种在保证模型效果基本不降低的前提下，通过降低参数的精度，来减少模型对于计算资源的需求的方法。

量化的核心目标是降成本，降训练成本，特别是降后期的推理成本。

QLoRA 是在 LoRA 的基础上，进行了进一步的量化，将原本用 16bit 表示的参数，降为用 4bit 来表示，可以在保证模型效果的同时，极大地降低成本。

比如：65B的 LLaMA 的微调要 780GB 的 GPU 内存，而用了 QLoRA 之后，只需要 48GB。效果相当惊人！

除了以上微调方法外，还有 Adapter、P tuning、P tuning V2等微调方案。

— 3—

免费超干货 LLM 大模型直播

为了帮助同学们掌握好 LLM 大模型的微调技术，本周日晚8点，我会开一场直播和同学们深度聊聊大模型的技术、分布式训练和参数高效微调，请同学点击下方按钮预约直播，咱们本周日晚8点不见不散哦~~

近期直播：《基于开源 LLM 大模型的微调（Fine tuning）实战》

END