LLM训练超参数说明

quantization_bit: 量化等级(非必填)- 启用 4/8 比特模型量化。

Max_source_length: 输入序列最大长度 - 输入序列分词后的最大长度。

Max target length: 输出序列最大长度 - 输出序列分词后的最大长度。

Learning rate: 学习率 - AdamW 优化器的初始学习率。

Epochs: 训练轮次 - 需要执行的训练总轮数。

Max samples: 最大样本数 - 每个数据集最多使用的样本数。

Batch size: 批处理大小 - 每块 GPU 上处理的样本数量。

Gradient accumulation: 梯度累计 - 梯度累积的步数。

LR Scheduler: 学习率调节器 - 采用的学习率调节器名称。

Maximum gradient norm: 最大梯度范数 - 用于梯度裁剪的范数。

Val size: 验证集比例 - 验证集占全部样本的百分比。

Logging steps: 日志间隔 - 每两次日志输出间隔的更新步数。

Save steps: 保存间隔 - 每两次断点保存间隔的更新步数。

Warmup steps: 预热步数 - 学习率预热采用的步数。

Compute type: 计算类型 - 是否启用 fp16 或 bf16 混合精度训练。

Padding side: 填充位置 - 使用左填充填“left”,使用右填充填“right”。

LoRA rank: LoRA 秩 - LoRA 矩阵的秩。

LoRA Dropout: LoRA 随机丢弃 - LoRA 权重随机丢弃的概率。

LoRA modules: LoRA 作用层(选填)- 应用 LoRA 的线性层名称。使用英文逗号分隔多个名称。

Resume LoRA training: 继续上次的训练 - 接着上次的 LoRA 权重训练或创建一个新的 LoRA 权重。如需继续上次的训练,填“True”,否则填“False”。

Last updated