第 2 课 · 知识库 · 学员手册

120 分钟，
把散乱资料变成技能的「弹药库」

这份手册是你参加第 2 课「知识库实战」的完整指南。你会看到为什么技能离不开知识库、如何按合规 4 档分级资料、怎样用 ima + WorkBuddy 处理个人资料、怎样在腾讯元器上搭建组织层知识库、以及答不好时怎样用诊断树定位问题。手册里继续用「绿源环保公益中心」做全程示范——看看他们怎样从 127 份散落文档中，筛出 53 份有效资料上传。

120 分钟 ima + WorkBuddy 腾讯元器组织知识库数据合规 4 档详解检索模式与命中率诊断

为什么需要知识库查看学习路线

贯穿案例：绿源环保公益中心

上一课，绿源构建了一个「结项报告技能」——能把项目执行流水账转成六章节结构化报告。但实际测试后发现：技能生成的报告数据靠编、措辞泛泛、缺少机构特色。原因很简单——技能只知道「怎么写」，却没有绿源过往的项目数据和资助方偏好做支撑。这节课，绿源要搭建自己的知识库，给技能装上「弹药」。

学习路线

这节课按 7 步走，不从工具开始

如果一上来就讲 ima、元器、Dify，学员会以为是在做平台选择。正确顺序是：先明确项目助理要答什么，再判断资料能不能用，最后才决定放进哪个工具。

看清关系

技能负责怎么做，知识库负责有什么。

定范围

选 1-2 个栏目，写 10 个测试问题。

过合规

按 L1-L4 判断能不能上云。

整资料

清洗、拆分、补 metadata。

放工具

ima、WorkBuddy、元器、Dify 各司其职。

跑测试

用 10 个真实问题测命中率。

做诊断

先看资料，再看检索，最后看生成。

为什么需要知识库

同一个技能，有没有知识库差别多大？

绿源用同一个「结项报告技能」分别测试——没有知识库 vs 有知识库。对比一目了然。

❌ 没有知识库——技能靠「猜」

项目成效：
本项目取得了良好的社会效果。通过开展系列环保活动，提升了社区居民的环境意识。共计约 200 人参与活动，产生了积极的社会影响。项目得到了各方的认可和支持。

问题：「约 200 人」是编造的；「良好效果」「积极影响」全是套话；没有引用任何真实数据。

✅ 有知识库——技能引用真实数据

项目成效：
「清河巡护」项目 2024 年度累计开展巡护行动 23 次，覆盖河段 12.6 公里，参与志愿者 87 人次。相比 2023 年同期（15 次巡护、58 人次），巡护频次提升 53%，志愿者参与提升 50%。XX 基金会中期评估评分 4.2/5（详见《2024年清河项目中期评估报告》第 3 章）。

亮点：引用了真实数据、历史对比、资助方评估——全部来自知识库中上传的过往报告。

一句话：技能知道「怎么做」（格式、流程、边界），知识库提供「弹药」（事实、案例、数据）。缺了弹药，技能再好也只能输出套话。

检验理解 → 课后测验 Q1

知识库地图

五大栏目：先建哪个？

调研数据告诉我们，学员最需要的五类知识库内容。按「有用」评分排序——先建最高分的 1-2 类，不必一次全建。

14.38

沟通模板

捐赠人邮件模板、媒体问答口径、社区沟通话术

/templates/communication/

绿源：资助方沟通邮件模板.docx

24.38

资助指南

各基金会申请要求、评审标准、往期资助清单

/guides/funding/

绿源：XX基金会2024申请指南.pdf

34.29

项目管理

项目计划模板、监测评估框架、财务报告格式

/sop/project-mgmt/

绿源：项目监测评估框架v2.xlsx

44.17-4.25

案例

成功/失败案例复盘、服务故事、传播素材

/cases/

绿源：清河巡护2023复盘.docx

54.08

志愿者管理

招募流程、培训手册、志愿者反馈表

/ops/volunteer/

绿源：志愿者培训手册2024版.pdf

检验理解 → 课后测验 Q10（开放题）

数据合规 4 档

上传之前，先给资料分级

把资料喂给 AI 之前，必须先分级。4 档从松到严——拿不准时，宁可往高一档放。这是整个课程的合规底线，也是你向资助方交待的依据。

✅ L1 公开

可直接上传云端

公众号文章、年度工作报告
公开发布的活动总结、宣传册
已公开的政策文件和行业报告

绿源示例：「2025年度工作报告.pdf」、公众号推文合集、公开发布的河流巡护数据年报

可直接上传云端知识库

⚠️ L2 准公开

脱敏 + 审核后上云

脱敏后的项目案例和服务故事
内部培训资料、操作手册
不含敏感信息的项目结项报告

绿源示例：项目结项报告（删掉受益人姓名后）、志愿者培训 PPT（删掉联系方式后）

负责人审核后上云

脱敏前：

志愿者张三（手机：138****1234）在清河社区开展了 3 次入户宣传，帮助居民王大妈解决了垃圾分类问题。

脱敏后：

志愿者 A 在清河社区开展了 3 次入户宣传，帮助居民 B 解决了垃圾分类问题。

⚠️ L3 内部

仅 WorkBuddy 本地

内部会议纪要、周会记录
未发布的项目计划和预算草案
团队内部讨论的策略文档

绿源示例：内部周会纪要、下季度预算草案、新项目孵化讨论记录

仅 WorkBuddy 本地，不上云

❌ L4 敏感

禁止上传任何 AI 平台

捐赠人姓名、联系方式、捐赠金额明细
受益人身份证号、家庭住址、健康信息
志愿者手机号、身份证、银行卡号

绿源示例：捐赠人名单.xlsx、受益家庭登记表、志愿者个人信息汇总表

禁止写进任何知识库或技能

红线：受益人、志愿者、捐赠人的姓名与联系方式，输出前一律脱敏（姓名→A/B，删除手机/证件号）。拿不准时，宁可不放——数据泄露没有「撤回」键。

检验理解 → 课后测验 Q2 · Q3 · Q4

资料处理

先把资料变干净，再谈上传工具

知识库质量很大程度取决于入库前处理。先把文件变成干净、可引用、可切片的文本，再谈 ima、WorkBuddy 和腾讯元器。

W推荐

Word / Markdown

保留标题层级，按章节清理。一份文档只讲一个主题，最适合直接入库。

P先清洗

PDF

判断文字 PDF 还是扫描件；扫描件先 OCR，表格页单独转结构化文本。

X转摘要

Excel / CSV

不要整表硬传，先转成字段说明、典型问答和行记录摘要。

S转讲稿

PPT / 图片

PPT 转逐页要点；图片先 OCR 或用 ima 识别，关键信息补文字说明。

A先转写

音频 / 访谈

先转写，再脱敏，再按主题拆分。访谈对象姓名、电话、住址必须删除。

检验理解 → 课后测验 Q8

工具落位

资料处理清楚后，再决定放进哪个工具

工具不是并列选择题，而是分层使用。先把资料分级、清洗和打标签，再让不同工具各司其职。

初阶个人层

腾讯 ima 知识工作台

收纳微信文件、网页、PDF、图片、音频
快速摘要、问答、萃取候选标签
判断哪些资料适合进组织知识库

先把资料用起来

个人执行层

WorkBuddy

调用个人知识和第 1 课技能
处理草稿、内部笔记、L3 资料
完成个人任务闭环

跑真实任务

组织主线

腾讯元器

承载 L1 和审核后的 L2 组织知识库
挂载到第 3 课项目助理 AI智能体
适合团队共享与统一入口

本期首选平台

高阶理解

元器进阶 / Dify

观察向量、全文、混合检索差异
训练切片、TopK、阈值、rerank 判断
服务 L2+ 学员和助教调参

RAG 训练场

边界：腾讯元器是本期组织层主线；Dify 不替代元器，只作为高阶演示和可选自建路线。不要把第 2 课变成工具测评课，所有工具都服务于同一个目标：项目助理能不能答准。

检验理解 → 课后测验 Q5

ima + WorkBuddy 个人层

6 步把个人资料变成可调用知识

ima 负责收纳和初步萃取，WorkBuddy 负责调用知识跑任务。个人层先跑通，组织层才有干净资料可同步。

1 清点

整理现有资料（清点家底）

把散落在各处的文档集中到一起盘点：云盘、微信文件、邮件附件、本地电脑。记录每份文档的名称、格式和来源。

绿源做了一次盘点：3 个云盘共散落 127 份文档，其中过期或重复的 59 份，实际可用 68 份。

2 分级

按 4 档分级

逐份标注 L1-L4，L4 直接剔除。有疑问的材料往高一档放。

绿源的分级结果：38 份 L1（公开）+ 18 份 L2（准公开）+ 9 份 L3（内部）+ 3 份 L4（敏感，剔除）= 65 份可用

3 脱敏

脱敏 L2 资料

L2 资料上云前必须脱敏：人名→A/B/C，金额→量级范围，电话/身份证→删除。

❌ 脱敏前（原始案例）

2024年清河项目由张明（项目经理）负责，获 XX 基金会资助 15 万元。志愿者李华（138****5678）参与了全部 23 次巡护，帮助受益人刘阿姨改善了家门口的排污问题。

✅ 脱敏后（可上传版本）

2024年清河项目由项目经理 A 负责，获 XX 基金会资助（10-20 万元区间）。核心志愿者 B 参与了全部 23 次巡护，帮助受益人 C 改善了社区排污问题。

4 进 ima

导入 ima，做初步摘要和标签

把 L1、L2 候选资料导入 ima，先让它回答“这份资料讲什么、能回答哪些问题、哪些内容需要脱敏、适合打什么标签”。

绿源让 ima 先整理出 5 大栏目：


                /templates/communication/  ← 沟通模板

                /guides/funding/  ← 资助指南

                /sop/project-mgmt/  ← 项目管理

                /cases/  ← 案例

                /ops/volunteer/  ← 志愿者管理

5 入 WB

在 WorkBuddy 中调用个人知识

按「年份/项目/类型」为资料添加 metadata，再用第 1 课技能跑一次真实任务，检查事实是否被正确引用。

绿源跑了一次任务：用结项报告技能调用 53 份个人资料，生成报告初稿，并标出 6 个需补充来源的数据点。

6 测试

测试检索质量

问 3 个你知道答案的真实问题，看知识库能否命中正确文档、给出准确回答。

绿源的 3 个测试问题：
1. 「2024年清河项目共开展了多少次巡护？」→ 命中 ✅
2. 「XX 基金会对结项报告的格式有什么要求？」→ 命中 ✅
3. 「2023年社区环教项目的参与人数？」→ 未命中 ❌（该报告尚未上传）

检验理解 → 课后测验 Q7

腾讯元器知识库同步

4 步同步到云端

WorkBuddy 本地知识库搭建好之后，把 L1 + 审核通过的 L2 资料同步到腾讯元器云端，让你的项目助理在任何设备上都能检索。

1 创建

登录元器，创建知识库空间

访问腾讯元器平台，在「知识库」模块中新建一个专属空间。建议命名为「[机构简称]-知识库」，方便后续管理。

绿源操作：创建了「绿源-知识库」空间，选择了「文档问答」类型。

2 上传

上传 L1 + 审核通过的 L2 资料

只上传已确认合规的资料。L3 和 L4 绝对不能上传到云端。每批上传建议不超过 20 份，避免处理超时。

绿源操作：上传了 38 份 L1 + 12 份审核通过的 L2 = 50 份。另外 3 份 L2 因负责人尚未审核，暂不上传。

3 参数

设置检索参数

调整两个关键参数：切片大小（建议 300-800 字，按章节自然分段）和相似度阈值（建议从 0.7 起步，偏高宁严）。

绿源参数：切片大小 500 字，相似度阈值 0.72。初始设置偏保守，后续根据命中率调整。

4 调试

调试检索效果

在元器的调试面板中输入测试问题，检查返回的文档片段是否相关。如果命中率不够，参考下一节的诊断树排查。

绿源调试结果：10 个测试问题命中 7 个（70%），其中 2 个未命中是因为相关文档未上传，1 个是切片过大导致答案被截断。

检验理解 → 课后测验 Q5

测试后的诊断工具

先跑 10 问，再理解向量、全文、混合检索

检索模式不是先背的概念，而是命中率不够时用来定位问题的工具。这里把它翻译成三类公益问题：精确事实、语义案例、综合筛选。

全文检索

按字面关键词匹配
适合人名、项目名、日期、编号、政策条款
例：2024 清河项目共开展了多少次巡护？

向量检索

按语义相似度匹配
适合相似案例、经验总结、换一种说法的提问
例：有没有社区居民参与河流保护的案例？

混合检索：关键词和语义一起用，通常适合作为大多数公益知识库的默认高阶策略。知识库变大后，还要配合 metadata 过滤，例如先限定年份、项目、资助方、领域，再检索。

检验理解 → 课后测验 Q6

命中率诊断

答不好？先判断是哪个环节

知识库建好后，问 10 个真实问题测命中率。答不好时按下面的顺序排查——先看资料，再看检索，最后看生成。

问了一个问题，答得不好

没找到正确内容 → 先查资料，再查检索

资料没上传？ → 先补对应文档

切片太大？ → 减小切片到 300-800 字

没打 metadata？ → 补标签（年份、项目名、类型）

检索模式不合适？ → 精确事实用全文，案例匹配用向量，综合筛选用混合

检索到了但回答质量差 → 生成问题

技能提示词太泛？ → 回第 1 课改 Gotchas 和输出契约

模型能力不足？ → 换更强的模型试试

绿源的实际诊断过程

提问：「2024年清河项目参与了多少人？」

AI 回答：「约 200 人」——这是编造的！

诊断：检查检索日志 → 没有命中任何相关文档 → 检索问题 → 发现 2024 清河项目结项报告尚未上传。

修复：上传《2024年清河巡护项目结项报告》，打好 metadata 标签。

重试同一问题：

AI 回答：「2024年清河巡护项目累计参与 87 人次（来源：结项报告第 3 章）」——正确！

口诀：先看资料，再看检索，最后看生成。多数时候补一份文档、拆细切片或补 metadata，就能明显提升命中率。

检验理解 → 课后测验 Q9

课后作业

分层目标：选你能达到的那一档

不要求一步到位。L1 是「用起来」，L2 是「用得顺」——大多数学员第一周达到 L1，第二周冲刺 L2。

入门 L1 · 用起来

WorkBuddy 本地知识库 ≥ 30 份文档
云端（腾讯元器）≥ 10 份文档
命中率 ≥ 60%（10 个问题答对 6 个）
能回答基本项目问题

进阶 L2 · 用得顺

WorkBuddy 本地知识库 ≥ 80 份文档
云端（腾讯元器）≥ 25 份文档
命中率 ≥ 70%（10 个问题答对 7 个）
有完整 metadata + 诊断修复记录

绿源当前进度

已上传 53 份 · 命中率 65% — 达到 L1 ✅ L2 目标：80 份 · 70%

绿源已完成 53 份上传，命中率 65%——达到 L1 标准。正在向 L2 冲刺：还需补 27 份文档，并通过诊断树修复 3 个未命中问题。

下课带走一句话：「我的知识库现在有 ___ 份文档，命中率从 ___% 提升到了 ___%。」——用数字说话，这就是你的学习成果。