LLM训练超参数说明
quantization_bit: 量化等级(非必填)- 启用 4/8 比特模型量化。
Max_source_length: 输入序列最大长度 - 输入序列分词后的最大长度。
Max target length: 输出序列最大长度 - 输出序列分词后的最大长度。
Learning rate: 学习率 - AdamW 优化器的初始学习率。
Epochs: 训练轮次 - 需要执行的训练总轮数。
Max samples: 最大样本数 - 每个数据集最多使用的样本数。
Batch size: 批处理大小 - 每块 GPU 上处理的样本数量。
Gradient accumulation: 梯度累计 - 梯度累积的步数。
LR Scheduler: 学习率调节器 - 采用的学习率调节器名称。
Maximum gradient norm: 最大梯度范数 - 用于梯度裁剪的范数。
Val size: 验证集比例 - 验证集占全部样本的百分比。
Logging steps: 日志间隔 - 每两次日志输出间隔的更新步数。
Save steps: 保存间隔 - 每两次断点保存间隔的更新步数。
Warmup steps: 预热步数 - 学习率预热采用的步数。
Compute type: 计算类型 - 是否启用 fp16 或 bf16 混合精度训练。
Padding side: 填充位置 - 使用左填充填“left”,使用右填充填“right”。
LoRA rank: LoRA 秩 - LoRA 矩阵的秩。
LoRA Dropout: LoRA 随机丢弃 - LoRA 权重随机丢弃的概率。
LoRA modules: LoRA 作用层(选填)- 应用 LoRA 的线性层名称。使用英文逗号分隔多个名称。
Resume LoRA training: 继续上次的训练 - 接着上次的 LoRA 权重训练或创建一个新的 LoRA 权重。如需继续上次的训练,填“True”,否则填“False”。
Last updated