「训练」和「微调」的区别

当我们真的对模型进行参数训练的时候,往往会分为2种形式:

  • 部分参数微调

  • 全参数训练

对模型,即便是一个 6B 参数量的模型进行全参数训练,成本也十分高昂,在数万到数十万美金之间,且对数据的要求量也极大。我们目前看到的很多基于 llama 的模型,正是在 llama 的基础上进行了全参数的重新训练

全参数的训练是一项基础建设工作,但在各个细分领域,我们更多会使用这些模型(被称之为预训练模型)来进行二次训练,二次训练往往只会改变部分参数,使用的数据量级也更少,但是,这些在垂直领域的数据可以更快的加强模型在这一独特方向的能力,从而在实际生产环境中发挥更大作用。

这种仅仅改变部分参数的训练,被称之为「微调」,微调在 LLM 领域非常常见,它具有成本低和效果明显的特点,它确实用新的数据改变了模型的部分参数,从而注入了新的能力或知识,但是(如果训练的好)又不改变模型原有的逻辑和能力

Last updated