日报:第二轮训练全面启动 · 15 组实验并行推进 — 2026年2月28日


训练启动

今天正式开启了第二轮 LoRA 微调实验的训练流程。为了在合理时间内跑完全部 15 组实验,在 RunPod 上租用了 4 张 GPU:

  • 2× A100 PCIe($1.40/hr)
  • 2× H200 NVL($3.40/hr)

按照目前的估算,每组实验约需 2–5 小时,全部 15 组预计 10 小时内可以跑完。

RunPod GPU Pod 租用详情


实验进展

W&B 面板当前显示 15 个 runs,涵盖第二轮实验设计的全部实验组:Block 1(数据量与策略对比)、Block 2(大维度消融)和 Block 3(子维度消融)。

截至今日收工,大部分实验已完成,剩余两组仍在运行中,预计 50 分钟内结束。

W&B 训练 Runs 总览(15 组)


明日计划

  • 跑通评测流程的核心部分:在 Gold / Random / Low-Q 三个测试集上计算困惑度,验证各组实验的 loss 表现。
  • 继续完善简历,把个人项目的展示面做好。