Beta 阶段的发布 PQ.v.Next
视频链接包括PQ的使用以及用户的真实反馈:
https://www.bilibili.com/video/BV1oVqGBXE2p/?spm_id_from=333.1387.homepage.video_card.click
https://www.bilibili.com/video/BV1SbqGBrEK9/?spm_id_from=333.1387.homepage.video_card.click
项目地址:https://z.gitee.cn/zgca/repos/zgca/aipq/tree/feature%2FKG_test
一、对全世界 🌍「我们吹的牛,实现了」
新闻稿 · PQ.v.Next版本发布
新闻稿视频发布:https://www.bilibili.com/video/BV1SbqGBrEK9/?spm_id_from=333.1387.homepage.video_card.click
视频展示了用户从第一次使用经过Alpha阶段的提出的诸多问题,到对Beta阶段时发自内心PQ的认可,包括平常的使用以及对我们后期进一步维护的期待。真正意义上做出了对用户有帮助的产品。
我们实现了什么?
因为在 Beta 阶段,我们已经真实跑通了整条链路:
- 从 PDF → OCR → 实体/关系抽取 → KG;
- 从 KG + 原文上下文 → LLM 出题;
- 从 单一题型 → 布鲁姆多层级题目;
- 从 “重新出题” → “同知识点,不同认知层级换题”。(目前测试还未接入)
核心价值:使得用户拥有更高效地开展演讲以及提高演讲的质量,并且对于听众来讲也能够更加深入了解演讲者的演讲。
二、对投资人 💼
「我们说到做到了」——一次 Alpha → Beta 的真实验证
如果用 NABCD 来看 Beta 阶段,我们得到了什么?
N(Need)需求是否真实?
✔️ 被反复验证
-
用户真正的痛点不是「没题」
-
而是:
- 题目层级单一
- 换题=换知识点
- 认知训练不可控
Daily Scrum 中多次提到:
“最终目标不是多出题,而是知识点不变,只改变布鲁姆层级” Daily scrum 撰写。
A(Approach)方案是否跑通?
✔️ 跑通,而且是工程化跑通
我们不是单点模型 demo,而是完整流水线:
- 文档 → OCR → 结构化文本
- NRE + LLM → 实体 / 关系修正
- Neo4j / KG 结构
- KG + 上下文 → 多层级题目生成
- 支持 B1 ~ B6 的切换与扩展
而且在 176 小时真实投入后,流水线完成并可复现Daily scrum 撰写。
B(Benefit)收益是否清晰?
✔️ 对用户、对平台都清晰
-
用户:
- 出题成本显著下降
- 认知层级可控
- 换题不等于推倒重来
-
PQ小程序:
- 题目生成从“内容生产”升级为“认知建模”
- 形成长期数据与模型壁垒
C(Competition)竞争差异?
✔️ 差异不在模型,而在认知结构
别的产品:
- LLM → 题目
我们:
- 知识点 → 认知层级 → 题目
这是结构性差异,不是 Prompt 优化。
D(Delivery)是否交付?
✔️ 已交付 Beta
- 功能已跑通
- 需要进一步调试稳定性
- CI/CD 接入测试
- 独立仓库验证:https://github.com/undoubtable/KG_allprocess/tree/main/KG_bloom
- 等待并入 PQ v.Next 主干Daily scrum 撰写
三、对程序员 👩💻👨💻
「我们用正确的方式做软件」
如果这个项目在 Beta 阶段选择开源,一个理性的工程师首先会问的不是“牛不牛”,而是:
这是不是一个值得长期投入的系统?
我们的答案不是口号,而是工程事实。
🧱 软件工程质量的几个硬特征
1. 不是 Demo,而是完整流水线(Pipeline First)
这个项目从一开始就拒绝单点成功。
我们没有做:
- 一个“看起来很厉害”的 LLM 出题脚本
- 一个跑一次就结束的 Notebook
而是构建了一条可演进的流水线:
- 输入层:PDF / 文档 → OCR → 标准化文本
- 抽取层:实体抽取、关系抽取(NRE + LLM 修正)
- 结构层:知识点、关系、上下文 → KG 表达
- 认知层:布鲁姆分类作为中间表示(而不是标签)
- 生成层:基于 KG + 上下文 + 认知层级的题目生成
- 替换层:同一知识点,不同认知层级的题目切换
关键点在于:
- 每一层都是可替换的
- 每一层都有明确输入 / 输出契约
- 每一层都可以单独测试与评估
这意味着:
你不是在维护一个 Prompt,而是在维护一个系统。
2. 真实 Scrum,而不是“写给老师看的 Scrum”
Daily Scrum 在这个项目里不是仪式,而是决策工具。
你能清楚看到:
-
原始计划:160 小时
-
实际投入:176 小时
-
明确标注:
- 哪些假设成立了
- 哪些被推翻了
- 哪些地方必须引入人工规则
- 哪些地方 LLM 暂时不可控
技术债不是被隐藏,而是被记录下来:
- 关系抽取效果一般 → 明确记录
- 布鲁姆层级分布不均 → 明确承认
- 纯 LLM 不可行 → 调整架构,而不是调 PPT
对程序员来说,这意味着:
这是一个允许你说“这里现在还不行”的项目,而不是逼你“看起来行”。
3. 承认 LLM 的边界,而不是对它进行宗教化崇拜
这个项目有一个非常重要、但在很多 AI 项目中缺失的原则:
LLM 是能力放大器,不是系统本身。
具体体现为:
- 不追求“纯 LLM 自动化”
- 不把 Prompt 当成核心资产
- 不把“生成看起来像对的东西”当成成功
我们选择的是:
- 规则 / 结构 / 人工约束 + LLM
- 用 LLM 修正关系,而不是凭空生成世界观
- 用布鲁姆分类作为认知约束,而不是事后贴标签
这对工程师来说意味着:
- 系统是可控的
- 行为是可解释的
- 失败是可定位的
这不是最“性感”的 AI 方案,但是最可维护的。
4. 复杂问题被真正拆解,而不是“一句话糊过去”
在很多项目里,“出题”是一个黑箱:
文档 → AI → 题目
在这里,“出题”被拆解成了五个明确的工程问题:
-
抽取:
- 什么是知识点?
- 什么是实体?什么不是?
-
结构:
- 知识点之间如何关联?
- 哪些关系是教学上有意义的?
-
认知:
- 这是记忆、理解,还是分析?
- 认知层级是否是系统的一部分?
-
生成:
- 在认知约束下生成题目,而不是事后分类
-
替换:
- 同一知识点,如何在不同认知层级间切换?
- 换题是否仍然保持教学目标一致?
这个拆解本身,就是一个成熟工程团队才会做的事情。
四、强烈结尾 🔥
「目标用户,真的喜欢吗?」
📊 Beta 阶段的真实 NPS(定性,但可信)
我们刻意没有在 Beta 阶段急着追求一个“漂亮的 NPS 数字”,
但从已有的用户反馈中,出现了一个非常一致的信号:
- 用户愿意推荐
- 但推荐理由和我们最初预期的不一样
他们并不是在说:
- “这个 AI 好聪明”
- “生成得好快”
而是在说:
“它让我第一次意识到,我以前出的题,其实只是在考记忆。”
这是一种认知层面的反馈,而不是功能层面的夸奖。
🤯 和最初想象的关键差异
我们原本以为用户会喜欢:
- AI
- 自动化
- 效率提升
但真正让他们留下来的,是:
- 被迫面对认知层级的现实
- 终于可以‘换题而不换知识’
- 教学设计不再是经验活,而是结构化决策
换句话说:
用户不是因为“省事”而喜欢它,
而是因为它让他们变得更专业。

浙公网安备 33010602011771号