第 2 课 · 知识库 · 学员手册

120 分钟,
把散乱资料变成技能的「弹药库」

这份手册是你参加第 2 课「知识库实战」的完整指南。你会看到为什么技能离不开知识库、如何按合规 4 档分级资料、 怎样用 ima + WorkBuddy 处理个人资料、怎样在腾讯元器上搭建组织层知识库、以及答不好时怎样用诊断树定位问题。 手册里继续用「绿源环保公益中心」做全程示范——看看他们怎样从 127 份散落文档中,筛出 53 份有效资料上传。

120 分钟 ima + WorkBuddy 腾讯元器组织知识库 数据合规 4 档详解 检索模式与命中率诊断

贯穿案例:绿源环保公益中心

上一课,绿源构建了一个「结项报告技能」——能把项目执行流水账转成六章节结构化报告。 但实际测试后发现:技能生成的报告数据靠编、措辞泛泛、缺少机构特色。 原因很简单——技能只知道「怎么写」,却没有绿源过往的项目数据和资助方偏好做支撑。 这节课,绿源要搭建自己的知识库,给技能装上「弹药」。

学习路线

这节课按 7 步走,不从工具开始

如果一上来就讲 ima、元器、Dify,学员会以为是在做平台选择。正确顺序是:先明确项目助理要答什么,再判断资料能不能用,最后才决定放进哪个工具。

1

看清关系

技能负责怎么做,知识库负责有什么。

2

定范围

选 1-2 个栏目,写 10 个测试问题。

3

过合规

按 L1-L4 判断能不能上云。

4

整资料

清洗、拆分、补 metadata。

5

放工具

ima、WorkBuddy、元器、Dify 各司其职。

6

跑测试

用 10 个真实问题测命中率。

7

做诊断

先看资料,再看检索,最后看生成。

为什么需要知识库

同一个技能,有没有知识库差别多大?

绿源用同一个「结项报告技能」分别测试——没有知识库 vs 有知识库。对比一目了然。

❌ 没有知识库——技能靠「猜」
项目成效:
本项目取得了良好的社会效果。通过开展系列环保活动,提升了社区居民的环境意识。共计约 200 人参与活动,产生了积极的社会影响。项目得到了各方的认可和支持。

问题:「约 200 人」是编造的;「良好效果」「积极影响」全是套话;没有引用任何真实数据。

✅ 有知识库——技能引用真实数据
项目成效:
「清河巡护」项目 2024 年度累计开展巡护行动 23 次,覆盖河段 12.6 公里,参与志愿者 87 人次。相比 2023 年同期(15 次巡护、58 人次),巡护频次提升 53%,志愿者参与提升 50%。XX 基金会中期评估评分 4.2/5(详见《2024年清河项目中期评估报告》第 3 章)。

亮点:引用了真实数据、历史对比、资助方评估——全部来自知识库中上传的过往报告。

一句话:技能知道「怎么做」(格式、流程、边界),知识库提供「弹药」(事实、案例、数据)。缺了弹药,技能再好也只能输出套话。

检验理解 → 课后测验 Q1

知识库地图

五大栏目:先建哪个?

调研数据告诉我们,学员最需要的五类知识库内容。按「有用」评分排序——先建最高分的 1-2 类,不必一次全建。

14.38

沟通模板

捐赠人邮件模板、媒体问答口径、社区沟通话术

/templates/communication/
绿源:资助方沟通邮件模板.docx
24.38

资助指南

各基金会申请要求、评审标准、往期资助清单

/guides/funding/
绿源:XX基金会2024申请指南.pdf
34.29

项目管理

项目计划模板、监测评估框架、财务报告格式

/sop/project-mgmt/
绿源:项目监测评估框架v2.xlsx
44.17-4.25

案例

成功/失败案例复盘、服务故事、传播素材

/cases/
绿源:清河巡护2023复盘.docx
54.08

志愿者管理

招募流程、培训手册、志愿者反馈表

/ops/volunteer/
绿源:志愿者培训手册2024版.pdf

检验理解 → 课后测验 Q10(开放题)

数据合规 4 档

上传之前,先给资料分级

把资料喂给 AI 之前,必须先分级。4 档从松到严——拿不准时,宁可往高一档放。这是整个课程的合规底线,也是你向资助方交待的依据。

✅ L1 公开

可直接上传云端

  • 公众号文章、年度工作报告
  • 公开发布的活动总结、宣传册
  • 已公开的政策文件和行业报告
绿源示例:「2025年度工作报告.pdf」、公众号推文合集、公开发布的河流巡护数据年报
可直接上传云端知识库
⚠️ L2 准公开

脱敏 + 审核后上云

  • 脱敏后的项目案例和服务故事
  • 内部培训资料、操作手册
  • 不含敏感信息的项目结项报告
绿源示例:项目结项报告(删掉受益人姓名后)、志愿者培训 PPT(删掉联系方式后)
负责人审核后上云
脱敏前:

志愿者张三(手机:138****1234)在清河社区开展了 3 次入户宣传,帮助居民王大妈解决了垃圾分类问题。

脱敏后:

志愿者 A 在清河社区开展了 3 次入户宣传,帮助居民 B 解决了垃圾分类问题。

⚠️ L3 内部

仅 WorkBuddy 本地

  • 内部会议纪要、周会记录
  • 未发布的项目计划和预算草案
  • 团队内部讨论的策略文档
绿源示例:内部周会纪要、下季度预算草案、新项目孵化讨论记录
仅 WorkBuddy 本地,不上云
❌ L4 敏感

禁止上传任何 AI 平台

  • 捐赠人姓名、联系方式、捐赠金额明细
  • 受益人身份证号、家庭住址、健康信息
  • 志愿者手机号、身份证、银行卡号
绿源示例:捐赠人名单.xlsx、受益家庭登记表、志愿者个人信息汇总表
禁止写进任何知识库或技能
红线:受益人、志愿者、捐赠人的姓名与联系方式,输出前一律脱敏(姓名→A/B,删除手机/证件号)。拿不准时,宁可不放——数据泄露没有「撤回」键。

检验理解 → 课后测验 Q2 · Q3 · Q4

资料处理

先把资料变干净,再谈上传工具

知识库质量很大程度取决于入库前处理。先把文件变成干净、可引用、可切片的文本,再谈 ima、WorkBuddy 和腾讯元器。

W推荐

Word / Markdown

保留标题层级,按章节清理。一份文档只讲一个主题,最适合直接入库。

P先清洗

PDF

判断文字 PDF 还是扫描件;扫描件先 OCR,表格页单独转结构化文本。

X转摘要

Excel / CSV

不要整表硬传,先转成字段说明、典型问答和行记录摘要。

S转讲稿

PPT / 图片

PPT 转逐页要点;图片先 OCR 或用 ima 识别,关键信息补文字说明。

A先转写

音频 / 访谈

先转写,再脱敏,再按主题拆分。访谈对象姓名、电话、住址必须删除。

检验理解 → 课后测验 Q8

工具落位

资料处理清楚后,再决定放进哪个工具

工具不是并列选择题,而是分层使用。先把资料分级、清洗和打标签,再让不同工具各司其职。

初阶个人层

腾讯 ima 知识工作台

  • 收纳微信文件、网页、PDF、图片、音频
  • 快速摘要、问答、萃取候选标签
  • 判断哪些资料适合进组织知识库
先把资料用起来
个人执行层

WorkBuddy

  • 调用个人知识和第 1 课技能
  • 处理草稿、内部笔记、L3 资料
  • 完成个人任务闭环
跑真实任务
组织主线

腾讯元器

  • 承载 L1 和审核后的 L2 组织知识库
  • 挂载到第 3 课项目助理 AI智能体
  • 适合团队共享与统一入口
本期首选平台
高阶理解

元器进阶 / Dify

  • 观察向量、全文、混合检索差异
  • 训练切片、TopK、阈值、rerank 判断
  • 服务 L2+ 学员和助教调参
RAG 训练场
边界:腾讯元器是本期组织层主线;Dify 不替代元器,只作为高阶演示和可选自建路线。不要把第 2 课变成工具测评课,所有工具都服务于同一个目标:项目助理能不能答准。

检验理解 → 课后测验 Q5

ima + WorkBuddy 个人层

6 步把个人资料变成可调用知识

ima 负责收纳和初步萃取,WorkBuddy 负责调用知识跑任务。个人层先跑通,组织层才有干净资料可同步。

1 清点

整理现有资料(清点家底)

把散落在各处的文档集中到一起盘点:云盘、微信文件、邮件附件、本地电脑。记录每份文档的名称、格式和来源。

绿源做了一次盘点:3 个云盘共散落 127 份文档,其中过期或重复的 59 份,实际可用 68 份。
2 分级

按 4 档分级

逐份标注 L1-L4,L4 直接剔除。有疑问的材料往高一档放。

绿源的分级结果:38 份 L1(公开)+ 18 份 L2(准公开)+ 9 份 L3(内部)+ 3 份 L4(敏感,剔除)= 65 份可用
3 脱敏

脱敏 L2 资料

L2 资料上云前必须脱敏:人名→A/B/C,金额→量级范围,电话/身份证→删除。

❌ 脱敏前(原始案例)
2024年清河项目由张明(项目经理)负责,获 XX 基金会资助 15 万元。志愿者李华(138****5678)参与了全部 23 次巡护,帮助受益人刘阿姨改善了家门口的排污问题。
✅ 脱敏后(可上传版本)
2024年清河项目由项目经理 A 负责,获 XX 基金会资助(10-20 万元区间)。核心志愿者 B 参与了全部 23 次巡护,帮助受益人 C 改善了社区排污问题。
4 进 ima

导入 ima,做初步摘要和标签

把 L1、L2 候选资料导入 ima,先让它回答“这份资料讲什么、能回答哪些问题、哪些内容需要脱敏、适合打什么标签”。

绿源让 ima 先整理出 5 大栏目:
/templates/communication/  ← 沟通模板
/guides/funding/  ← 资助指南
/sop/project-mgmt/  ← 项目管理
/cases/  ← 案例
/ops/volunteer/  ← 志愿者管理
5 入 WB

在 WorkBuddy 中调用个人知识

按「年份/项目/类型」为资料添加 metadata,再用第 1 课技能跑一次真实任务,检查事实是否被正确引用。

绿源跑了一次任务:用结项报告技能调用 53 份个人资料,生成报告初稿,并标出 6 个需补充来源的数据点。
6 测试

测试检索质量

问 3 个你知道答案的真实问题,看知识库能否命中正确文档、给出准确回答。

绿源的 3 个测试问题:
1. 「2024年清河项目共开展了多少次巡护?」→ 命中 ✅
2. 「XX 基金会对结项报告的格式有什么要求?」→ 命中 ✅
3. 「2023年社区环教项目的参与人数?」→ 未命中 ❌(该报告尚未上传)

检验理解 → 课后测验 Q7

腾讯元器知识库同步

4 步同步到云端

WorkBuddy 本地知识库搭建好之后,把 L1 + 审核通过的 L2 资料同步到腾讯元器云端,让你的项目助理在任何设备上都能检索。

1 创建

登录元器,创建知识库空间

访问腾讯元器平台,在「知识库」模块中新建一个专属空间。建议命名为「[机构简称]-知识库」,方便后续管理。

绿源操作:创建了「绿源-知识库」空间,选择了「文档问答」类型。
2 上传

上传 L1 + 审核通过的 L2 资料

只上传已确认合规的资料。L3 和 L4 绝对不能上传到云端。每批上传建议不超过 20 份,避免处理超时。

绿源操作:上传了 38 份 L1 + 12 份审核通过的 L2 = 50 份。另外 3 份 L2 因负责人尚未审核,暂不上传。
3 参数

设置检索参数

调整两个关键参数:切片大小(建议 300-800 字,按章节自然分段)和相似度阈值(建议从 0.7 起步,偏高宁严)。

绿源参数:切片大小 500 字,相似度阈值 0.72。初始设置偏保守,后续根据命中率调整。
4 调试

调试检索效果

在元器的调试面板中输入测试问题,检查返回的文档片段是否相关。如果命中率不够,参考下一节的诊断树排查。

绿源调试结果:10 个测试问题命中 7 个(70%),其中 2 个未命中是因为相关文档未上传,1 个是切片过大导致答案被截断。

检验理解 → 课后测验 Q5

测试后的诊断工具

先跑 10 问,再理解向量、全文、混合检索

检索模式不是先背的概念,而是命中率不够时用来定位问题的工具。这里把它翻译成三类公益问题:精确事实、语义案例、综合筛选。

全文检索

  • 按字面关键词匹配
  • 适合人名、项目名、日期、编号、政策条款
  • 例:2024 清河项目共开展了多少次巡护?

向量检索

  • 按语义相似度匹配
  • 适合相似案例、经验总结、换一种说法的提问
  • 例:有没有社区居民参与河流保护的案例?
混合检索:关键词和语义一起用,通常适合作为大多数公益知识库的默认高阶策略。知识库变大后,还要配合 metadata 过滤,例如先限定年份、项目、资助方、领域,再检索。

检验理解 → 课后测验 Q6

命中率诊断

答不好?先判断是哪个环节

知识库建好后,问 10 个真实问题测命中率。答不好时按下面的顺序排查——先看资料,再看检索,最后看生成

问了一个问题,答得不好
检索到了但回答质量差 → 生成问题
1
技能提示词太泛? → 回第 1 课改 Gotchas 和输出契约
2
模型能力不足? → 换更强的模型试试

绿源的实际诊断过程

1
提问:「2024年清河项目参与了多少人?」
AI 回答:「约 200 人」——这是编造的!
2
诊断:检查检索日志 → 没有命中任何相关文档 → 检索问题 → 发现 2024 清河项目结项报告尚未上传
3
修复:上传《2024年清河巡护项目结项报告》,打好 metadata 标签。
4
重试同一问题:
AI 回答:「2024年清河巡护项目累计参与 87 人次(来源:结项报告第 3 章)」——正确!
口诀:先看资料,再看检索,最后看生成。多数时候补一份文档、拆细切片或补 metadata,就能明显提升命中率。

检验理解 → 课后测验 Q9

课后作业

分层目标:选你能达到的那一档

不要求一步到位。L1 是「用起来」,L2 是「用得顺」——大多数学员第一周达到 L1,第二周冲刺 L2。

入门 L1 · 用起来

  • WorkBuddy 本地知识库 ≥ 30 份文档
  • 云端(腾讯元器)≥ 10 份文档
  • 命中率 ≥ 60%(10 个问题答对 6 个)
  • 能回答基本项目问题

进阶 L2 · 用得顺

  • WorkBuddy 本地知识库 ≥ 80 份文档
  • 云端(腾讯元器)≥ 25 份文档
  • 命中率 ≥ 70%(10 个问题答对 7 个)
  • 有完整 metadata + 诊断修复记录

绿源当前进度

已上传 53 份 · 命中率 65% — 达到 L1 ✅ L2 目标:80 份 · 70%

绿源已完成 53 份上传,命中率 65%——达到 L1 标准。正在向 L2 冲刺:还需补 27 份文档,并通过诊断树修复 3 个未命中问题。

下课带走一句话:「我的知识库现在有 ___ 份文档,命中率从 ___% 提升到了 ___%。」——用数字说话,这就是你的学习成果。

检验理解 → 课后测验 Q10(开放题)