日报:评测集构建完成 · 困惑度评测就绪 — 2026年3月1日


评测集构建完毕

今天完成了评测流程的核心准备工作:用 build_test_set.py 构建了三组评测集,分别对应三种质量层级:

  • Gold:高质量轨迹,200 条
  • Random:随机采样,200 条
  • Low-Q:低质量轨迹,200 条

三组数据均已输出为 .jsonl 文件,路径写入日志,结构统一,可直接送入评测脚本。

测试集构建完成(终端输出)


明日计划

  • 在三组测试集上运行困惑度评测,对比各实验组的 loss 表现。
  • 验证评分排序与 loss 梯度的一致性,为最终结论提供依据。