日报:评测集构建完成 · 困惑度评测就绪 — 2026年3月1日
评测集构建完毕
今天完成了评测流程的核心准备工作:用 build_test_set.py 构建了三组评测集,分别对应三种质量层级:
- Gold:高质量轨迹,200 条
- Random:随机采样,200 条
- Low-Q:低质量轨迹,200 条
三组数据均已输出为 .jsonl 文件,路径写入日志,结构统一,可直接送入评测脚本。

明日计划
- 在三组测试集上运行困惑度评测,对比各实验组的 loss 表现。
- 验证评分排序与 loss 梯度的一致性,为最终结论提供依据。