2026年3月2日

日报：困惑度评测正式启动 · 实验矩阵定型 — 2026年3月2日

困惑度评测正式启动

昨天评测集构建完毕，今天终于可以正式开跑了。

评测脚本对每个实验组依次挂载 LoRA adapter，在三个独立测试集上计算 assistant token 的平均交叉熵损失（cross-entropy loss）。评测顺序基于历史缓存自动跳过已完成的模型，当前正在跑的是 exp4（TopQ-1000）：

[INFO] 模型加载完成，显存占用：14.19 GB
[INFO] 已加载历史结果，包含模型：['baseline', 'exp1', 'exp2', 'exp3']
[INFO] 评估模型：exp4
[INFO] 挂载 LoRA adapter：/workspace/outputs/exp4/final
[exp4/gold]  50/200  avg_loss=0.4233  elapsed=227s
[exp4/gold] 100/200  avg_loss=0.4169  elapsed=451s

从日志来看，模型加载正常，loss 已在稳步计算中。

exp4 困惑度评测进行中（终端日志）

实验矩阵定型

趁评测跑着的间隙，我把整个实验设计重新梳理并最终确认了下来。全部实验共 13 组 + 1 baseline，按研究目的分为三个 Block：

实验矩阵总览：13组 + 1 Baseline

Block 1：数据量与策略对比（7组）

这一组是整个实验的核心对比，从三个维度系统地检验微调数据的选取方式：

对比	研究问题
exp1 vs exp5	Gate 有没有用？全量随机 vs resolved 池随机
exp5 vs exp3	评分有没有用？ resolved 随机 vs resolved 排序
500 → 1000	数据量 scaling，三种策略下的提升幅度
exp3 vs exp7	Sanity check：最优 vs 最差，验证评分体系有效性

其中 exp7（BottomQ-500）是用 composite 倒序挑出的最低质量样本，作为”坏数据”对照，理论上应该表现最差。如果最终 loss 梯度符合预期，这也是对整套评分体系最直接的验证。

Block 2：大维度消融（2组）

检验 composite score 中两个主维度的各自贡献：

Ablation-NoEfficiency-500（exp8）：只用 Style 维度排序选样
Ablation-NoStyle-500（exp9）：只用 Efficiency 维度排序选样

与 exp3（完整 composite）对比，可以判断哪个维度对质量判断的贡献更大。

Block 3：子维度消融（4组）

进一步拆解每个大维度内部的子指标：

对比	研究问题
exp10 vs exp11 vs exp3	Efficiency 内部：Error-Retry Cycles vs Step Count Ratio 哪个更关键？
exp12 vs exp13 vs exp3	Style 内部：Action Diversity vs Observation Utilization 哪个更关键？

评测预期

所有模型最终应呈现以下 loss 梯度：

Loss(Gold) < Loss(Random) < Loss(Low-Q)

这个梯度本身既是对评分体系合理性的验证，也是判断各实验组”有没有学到高质量模式”的核心指标。如果某个实验组在 Gold 集上的 loss 显著低于其他组，说明其训练数据的质量确实对模型能力提升有帮助。

复用情况说明

由于评分公式在上一版本基础上有所调整，部分旧实验的选样结果已经失效，需要重训：

实验	是否复用	原因
baseline	✅ 复用	无微调，与评分无关
Random-500 / Random-1000	✅ 复用	随机采样，与评分体系无关
其余所有	❌ 需重训	评分公式变化，选出的样本不同

实际需要新训练的实验组共 11 组。

明日计划

等待当前所有实验组的困惑度评测跑完（预计还需数小时）
汇总并对比各组在 Gold / Random / Low-Q 三集上的 loss 结果
绘制 loss 对比热力图或折线图，初步分析实验结论
根据 Block 1 结果判断是否需要优先启动消融组的重训