日报:幼儿园 App 与模型评测——2026年2月3日


幼儿园 App 的契机

由于我目前在幼儿园家委会,昨天的家委会会议几乎被同一个问题反复打断:幼儿园现有的 App 体验极差
所谓的 App,本质上只是一个网页嵌套进手机外壳——卡顿、加载缓慢,图片和视频经常无法打开,使用体验令人沮丧。

会后我迅速整理了一份产品构想与功能规划,并与国内的软件外包团队取得联系,决定先从最小成本验证开始:
👉 先设计一个主界面 UI,观察整体观感与交互效果,再评估是否值得继续推进。

这背后其实是一个清晰的市场空缺。
德国幼儿园正在被动走向数字化,但现有方案普遍陈旧、体验落后,几乎没有真正从“用户体验”出发的产品。我决定尝试从这里切入,探索其可能性。


研究进展更新

今天主要推进模型评测与推理环境配置。

我尝试使用 RTX 6000 Ada 部署支持 16k 上下文 的模型,但很快遇到了网络层面的隐性问题:
由于 RunPod 服务器位于美国,而我采用的是 HTTP API 调用方式,Cloudflare 的超时设置与我本地及评测端不匹配,最终导致推理任务长期卡在 step 1

定位问题后,我直接切换到 A100
这一次推理速度显著提升,流程顺畅,提交行为也明显更稳定


问题与结论

在更换 YAML 配置后,流程跑到一半时又踩到了一个基础却致命的坑:
Docker 拉取镜像需要登录,而我忘记了这一步
我中断流程重来,并将完整步骤补充进文档,避免未来重复犯错。

但真正的问题出现在结果分析阶段:

  • 提交的 patch 绝大多数为空
  • 少量非空 patch 也明显属于幻觉输出
  • 几乎没有可实际应用的修改

这让我不得不接受一个结论:
👉 Qwen2.5 Coder 3B 在能力层面上,可能并不适合完成这一类任务
以该模型作为基底进行评测,本身就不具备现实可行性。


下一步

结果不理想,但方向更清晰了。
我需要重新寻找一个在模型规模、算力成本与效果之间可平衡的方案。

继续寻找。
路还在前面。