准备数据集

数据集是训练模型的基石

数据集的准备是模型训练最重要的工作,好的数据集能够极大的提升模型的能力,降低训练失败的概率

模迪手的数据集和大部分 LLM 所需的数据集相同,为 json 格式的文本内容,例如:

[
    {
		"instruction": "保持健康的三个提示。",
		"input": "",
		"output": "以下是保持健康的三个提示:1. 保持身体活动。每天做适当的身体运动,如散步、跑步或游泳,能促进心血管健康,增强肌肉力量,并有助于减少体重。2. 均衡饮食。每天食用新鲜的蔬菜、水果、全谷物和脂肪含量低的蛋白质食物,避免高糖、高脂肪和加工食品,以保持健康的饮食习惯。3. 睡眠充足。睡眠对人体健康至关重要,成年人每天应保证 7-8 小时的睡眠。良好的睡眠有助于减轻压力,促进身体恢复,并提高注意力和记忆力。"
	},
	{
		"instruction": "三原色是什么?",
		"input": "",
		"output": "三原色通常指的是红色、绿色和蓝色(RGB)。它们是通过加色混合原理创建色彩的三种基础颜色。在以发光为基础的显示设备中(如电视、计算机显示器、智能手机和平板电脑显示屏), 三原色可混合产生大量色彩。其中红色和绿色可以混合生成黄色,红色和蓝色可以混合生成品红色,蓝色和绿色可以混合生成青色。当红色、绿色和蓝色按相等比例混合时,可以产生白色或灰色。此外,在印刷和绘画中,三原色指的是以颜料为基础的红、黄和蓝颜色(RYB)。这三种颜色用以通过减色混合原理来创建色彩。不过,三原色的具体定义并不唯一,不同的颜色系统可能会采用不同的三原色。"
	},
	{
		"instruction": "描述原子的结构。",
		"input": "",
		"output": "原子是物质的基本单位,它由三种基本粒子组成:质子、中子和电子。质子和中子形成原子核,位于原子中心,核外的电子围绕着原子核运动。原子结构具有层次性。原子核中,质子带正电,中子不带电(中性)。原子核非常小且致密,占据了原子总质量的绝大部分。电子带负电,通常围绕核运动,形成若干层次,称为壳层或电子层。电子数量与质子数量相等,使原子呈电中性。电子在每个壳层中都呈规律分布,并且不同壳层所能容纳的电子数也不同。在最里面的壳层一般只能容纳2个电子,其次一层最多可容纳8个电子,再往外的壳层可容纳的电子数逐层递增。原子核主要受到两种相互作用力的影响:强力和电磁力。强力的作用范围非常小,主要限制在原子核内,具有极强的吸引作用,使核子(质子和中子)紧密结合在一起。电磁力的作用范围较大,主要通过核外的电子与原子核相互作用,发挥作用。这就是原子的基本结构。原子内部结构复杂多样,不同元素的原子核中质子、中子数量不同,核外电子排布分布也不同,形成了丰富多彩的化学世界。"
	}
]

可以看到,数据集中包含多个数据,每个数据由 instruction, input, output 组成,可以通俗的将 instruction 理解为模型输入,output 理解为模型输出,input 为「背景信息」,在较为简单的场景下可以留空

数据集和你的训练目标紧密相关,也决定了训练的效果,在下面,我们会通过 2 个例子来介绍数据集的使用和效果

例子一:数字克隆

例子二:八卦投稿故事生成器

以下是一些数据集的建议:

  • 大多数时候数据集中的数据条目越多越好(但训练成本也会更高)

  • 数据集应该覆盖更多的场景,而不应该是简单的重复

数据集会包含知识,输出偏好,表达方式的信息,这些信息会部分的被模型学习到,但很难100%被学习,针对训练结果,调整和完善数据集,也是获得更好效果的一种方式

Last updated