参数设置

训练模型设置的参数

训练模型前,通常需要设定一些超参数,模迪手支持的参数包括:

  • epoch:迭代轮次

整个数据集被喂入chat模型训练一次,叫一个Epoch。

  1. Epoch值越大,学习过程就越多,模型从数据集中学到的信息就越多,会有忘记模型本身知识的风险。

  2. Epoch值越小,表示学习的过程就越少,模型从数据集中学到的知识就越少,会有模型训练不充分的风险。

一个 Epoch 可以分成多个 Batch(批次),每个 Batch 包含一定数量的数据集中的样本。

  • Gradient Accumulation Steps:梯度累积步数

在训练一个chat模型时,为了节省显存,每次只使用一小部分的数据来计算梯度,但是不立即更新模型的参数,而是把多次计算的梯度累加起来,达到一定的次数后,再根据累积的梯度来更新模型的参数。 这样做的好处是,可以间接地增大每次更新参数时使用的数据量,提高模型的学习效果。

  • Learning Rat:学习率

学习率是指chat模型在训练过程中对参数进行更新的速度。

  1. 学习率太大,可能导致模型无法收敛到最优解;

  2. 学习率太小,可能导致模型收敛速度过慢,甚至陷入局部最优解。

  • LR Scheduler:学习率调度器

LR Scheduler是一种用于调整学习率的方法,LR Scheduler可以根据训练的进度,动态地调整学习率的大小,使chat模型能够更快更好地收敛。

  • Save Steps:保存步数

在训练chat模型过程中,Save Steps是指每隔多少个训练Steps,就将模型参数保存到一个文件中,以便于后续的加载和使用。 Save Steps不要超过总的训练步数(总训练步数 = (数据样本量 * Epoch数量) / (Batch大小 * Gradient Accumulation Steps))

未来,模迪手还会支持更多自定义参数,包括模型训练方式等

Last updated