日报:困惑度评测正式启动 · 实验矩阵定型 — 2026年3月2日


困惑度评测正式启动

昨天评测集构建完毕,今天终于可以正式开跑了。

评测脚本对每个实验组依次挂载 LoRA adapter,在三个独立测试集上计算 assistant token 的平均交叉熵损失(cross-entropy loss)。评测顺序基于历史缓存自动跳过已完成的模型,当前正在跑的是 exp4(TopQ-1000)

[INFO] 模型加载完成,显存占用:14.19 GB
[INFO] 已加载历史结果,包含模型:['baseline', 'exp1', 'exp2', 'exp3']
[INFO] 评估模型:exp4
[INFO] 挂载 LoRA adapter:/workspace/outputs/exp4/final
[exp4/gold]  50/200  avg_loss=0.4233  elapsed=227s
[exp4/gold] 100/200  avg_loss=0.4169  elapsed=451s

从日志来看,模型加载正常,loss 已在稳步计算中。

exp4 困惑度评测进行中(终端日志)


实验矩阵定型

趁评测跑着的间隙,我把整个实验设计重新梳理并最终确认了下来。全部实验共 13 组 + 1 baseline,按研究目的分为三个 Block:

实验矩阵总览:13组 + 1 Baseline

Block 1:数据量与策略对比(7组)

这一组是整个实验的核心对比,从三个维度系统地检验微调数据的选取方式:

对比研究问题
exp1 vs exp5Gate 有没有用? 全量随机 vs resolved 池随机
exp5 vs exp3评分有没有用? resolved 随机 vs resolved 排序
500 → 1000数据量 scaling,三种策略下的提升幅度
exp3 vs exp7Sanity check:最优 vs 最差,验证评分体系有效性

其中 exp7(BottomQ-500)是用 composite 倒序挑出的最低质量样本,作为”坏数据”对照,理论上应该表现最差。如果最终 loss 梯度符合预期,这也是对整套评分体系最直接的验证。

Block 2:大维度消融(2组)

检验 composite score 中两个主维度的各自贡献:

  • Ablation-NoEfficiency-500(exp8):只用 Style 维度排序选样
  • Ablation-NoStyle-500(exp9):只用 Efficiency 维度排序选样

与 exp3(完整 composite)对比,可以判断哪个维度对质量判断的贡献更大。

Block 3:子维度消融(4组)

进一步拆解每个大维度内部的子指标:

对比研究问题
exp10 vs exp11 vs exp3Efficiency 内部:Error-Retry Cycles vs Step Count Ratio 哪个更关键?
exp12 vs exp13 vs exp3Style 内部:Action Diversity vs Observation Utilization 哪个更关键?

评测预期

所有模型最终应呈现以下 loss 梯度:

Loss(Gold) < Loss(Random) < Loss(Low-Q)

这个梯度本身既是对评分体系合理性的验证,也是判断各实验组”有没有学到高质量模式”的核心指标。如果某个实验组在 Gold 集上的 loss 显著低于其他组,说明其训练数据的质量确实对模型能力提升有帮助。


复用情况说明

由于评分公式在上一版本基础上有所调整,部分旧实验的选样结果已经失效,需要重训:

实验是否复用原因
baseline✅ 复用无微调,与评分无关
Random-500 / Random-1000✅ 复用随机采样,与评分体系无关
其余所有❌ 需重训评分公式变化,选出的样本不同

实际需要新训练的实验组共 11 组


明日计划

  • 等待当前所有实验组的困惑度评测跑完(预计还需数小时)
  • 汇总并对比各组在 Gold / Random / Low-Q 三集上的 loss 结果
  • 绘制 loss 对比热力图或折线图,初步分析实验结论
  • 根据 Block 1 结果判断是否需要优先启动消融组的重训