2.大模型微调构建平台IDP LM 使用手册
一、 概述
IDP LM 是 IDP 平台对于低代码大模型训练和推理而专门提供的一整套功能组件支持,包含数据集管理、数据标注、模型训练、模型推理、数据反馈等功能模块。
二、 设计理念
● IDP LM 的设计理念是按 GPT 的论文中 RLHF 步骤来实现的,全流程支持模型的 SFT、Reward Model训练、PPO 训练。
● 数据集按统一格式来整理,需要有 “prompt”, ”response”, “chosen”, “reject” 这些字段
● 为保证 PPO 的质量,反馈的数据,需要经过管理员审核才可以使用。 管理员可以修改对应的反馈
● 训练部分基于 deepspeed 框架来实现,默认用多机多卡模式
● 为方便测试,集成了模型推理测试功能,可以方便地测试模型的效果
● 另提供了通用的模型评估模块,用来评估模型的性能
三、 快速上手
IDP LM主要包括四大功能模块:

利用IDP LM进行大模型微调,核心流程步骤为:

其中,数据集上传和数据预处理,在IDP LM“数据集管理”模块中完成。

创建模型微调任务、训练指标和日志监控、模型评估、模型推理在IDP LM“数据集管理”功能模块中完成。

四、 具体使用说明
1. 数据上传
1)上传方式
如果要进行模型训练,需要先上传数据集。目前支持本地上传、通过连接上传的上传方式。

2)数据集格式
数据集支持多种文件格式(.xlsx .xls .csv .txt 文件)。但请注意,一定要包含所需要的字段:需要有 “prompt”, “response”, “chosen”, “rejected” 四个字段。
其中“prompt”为提示词/问题,“response”为对应提示词的回答,“chosen”为被选中的优质回答(如同一个prompt有多个response, “chosen”是对应prompt最好好的答案,需要模型学习的回答),“rejected”是未被选择的不好的答案。
“response”和“chosen”为必填字段。
.xlsx数据格式示例:
.csv数据格式要求:
csv文件以 \t 分割
.txt数据格式模型处理方式:
.txt数据,纯文本形式即可。在训练过程中,每行数据作为一个整体数据块输入模型进行处理。
注意:.txt格式的数据集仅可用于“无监督微调”。
2. 数据预处理
2.1 数据清洗与增强
我们内置了对于数据集的一些操作的支持,包含数据预览、数据清洗、数据增强和数据标注等。

数据预览可以查看数据抽样。

数据清洗:集成了一些常用操作,如去重、去除emoji等。

数据增强则为“造数据”提供了工具。

2.2 数据标注
对于大语言模型的训练,通常文本语料可以满足训练需求,如果有复杂的数据标注需求,我们内置了数据标注工具,提供“撰写答案”“答案质量评分”等典型标注模板。标注后的数据可在模型训练中直接使用。
按照格式要求上传数据集后,可点击“标注”操作,创建数据标注任务,选择响应的标注模板。


标注任务创建成功,点击“标注中”,可进行标注。


标注完成后,在“数据集管理”中相应的数据条目中,点击“标注完成”,标注数据即保存为新的数据集版本,可在后续模型微调中使用。

3. 模型微调训练
文本类数据集,可以直接用来做训练。点击“训练模型”可创建新的模型微调任务。

模型微调训练任务,可以以表单形式对训练任务、基础模型、数据集进行设置。
1)训练任务:训练任务类型支持4中,包括无监督微调、监督微调(SFT)、奖励模型训练和强化学习。监督微调(SFT)是最常用的微调方式。

2)基础模型:选定任务类型后可以选择基础模型,平台支持常用的基础模型,包括baichun,Llama, ChatGLM,Qwen等。
3)数据集:选择训练所需的数据集,“数据集管理”列表中的数据集均可选择进行训练。

4)微调提示词模板:对于常用的一些模型,内置了提示词的模板。注意:由于不同模型的提示词不完全相同,如果提示词模板呢模型不匹配,可能导致推理时模型不响应。

设置好对应参数,就可以开始训练了。如果需要更细粒度的参数控制,可以切换到命令模型,我们也提供了各种参数的说明。

4. 训练指标监测
训练过程中的日志查看、训练指标、训练任务详情及所用资源查看,都可以在模型管理界面操作。

1)训练指标:提供训练指标看板,包括train loss、loss scale、learning rate等,帮助用户实时跟踪模型训练效果。

2) 训练日志:实时展示模型训练过程中的日志信息,方便用户了解任务详细状态。

3) 训练任务详情:可以查看训练任务的详细信息,包括训练参数、所用数据集、训练使用的机器节点等。
5. 模型评估
对于训练好的模型,通过“模型管理”页面,点击“未评估”,可进行模型评估。

模型评估方式,支持机器打分(IDP LM平台内置评估数据集)、GPT打分和人工打分三种方式。

对于机器打分,对准确度、稳定性等各指标,点击各指标柱状图,可查看评估详情。以下为准确度打分详情实例。

6. 模型推理测试
训练好的模型,可部署在线测试服务,点击“进入推理页面”,与模型进行对话。


7. 反馈数据审核
如果要做 RLHF 中的第 3 步 PPO 训练,需要用到反馈数据的管理,对回流的反馈数据进行审核,选择优质数据作为再训练数据集。

审核员对各用户反馈数据进行评分审核,4和5分的问答对可回流,作为数据集回流至模型进行在训练。如果对于用户反馈的问答对不满意,审核员也可以自行添加答案,供模型训练所用。

Last updated