2026年2月3日

日报：幼儿园 App 与模型评测——2026年2月3日

幼儿园 App 的契机

由于我目前在幼儿园家委会，昨天的家委会会议几乎被同一个问题反复打断：幼儿园现有的 App 体验极差。
所谓的 App，本质上只是一个网页嵌套进手机外壳——卡顿、加载缓慢，图片和视频经常无法打开，使用体验令人沮丧。

会后我迅速整理了一份产品构想与功能规划，并与国内的软件外包团队取得联系，决定先从最小成本验证开始：
👉 先设计一个主界面 UI，观察整体观感与交互效果，再评估是否值得继续推进。

这背后其实是一个清晰的市场空缺。
德国幼儿园正在被动走向数字化，但现有方案普遍陈旧、体验落后，几乎没有真正从“用户体验”出发的产品。我决定尝试从这里切入，探索其可能性。

研究进展更新

今天主要推进模型评测与推理环境配置。

我尝试使用 RTX 6000 Ada 部署支持 16k 上下文 的模型，但很快遇到了网络层面的隐性问题：
由于 RunPod 服务器位于美国，而我采用的是 HTTP API 调用方式，Cloudflare 的超时设置与我本地及评测端不匹配，最终导致推理任务长期卡在 step 1。

定位问题后，我直接切换到 A100。
这一次推理速度显著提升，流程顺畅，提交行为也明显更稳定。

问题与结论

在更换 YAML 配置后，流程跑到一半时又踩到了一个基础却致命的坑：
Docker 拉取镜像需要登录，而我忘记了这一步。
我中断流程重来，并将完整步骤补充进文档，避免未来重复犯错。

但真正的问题出现在结果分析阶段：

提交的 patch 绝大多数为空
少量非空 patch 也明显属于幻觉输出
几乎没有可实际应用的修改

这让我不得不接受一个结论：
👉 Qwen2.5 Coder 3B 在能力层面上，可能并不适合完成这一类任务。
以该模型作为基底进行评测，本身就不具备现实可行性。

下一步

结果不理想，但方向更清晰了。
我需要重新寻找一个在模型规模、算力成本与效果之间可平衡的方案。

继续寻找。
路还在前面。