第 2 课 · 知识库

让散乱的资料
变成 AI 能检索的资产

约 50% 的环境公益机构把「资料散落各处、案例难以复用」列为最大痛点。这节课带你把散落在云盘、微信、邮件附件里的项目档案、资助指南、历年案例，整理成 AI 能准确检索的知识库。先用 ima 和 WorkBuddy 处理个人资料，再用腾讯元器搭建组织层项目助理知识库，高阶部分理解检索机制与调参方法。

时长 120 分钟产出 ima / WorkBuddy + 腾讯元器知识库主线第二步：知识库

打开学员手册查看学习路线

课后自测：课后测验（10 题）→ 覆盖本课 5 项教学目标（知识库本质 / 工具选型 / 合规分级 / 检索模式 / 命中率诊断），每题标注对应《学员手册》章节。

学习路线

先想清楚，再动工具：7 步走完一轮知识库

这节课不是平台功能课。先确定项目助理要回答什么，再处理资料，最后才选择工具、测试和调优。

看清关系

技能定义做法，知识库提供事实。

定范围

选 1-2 类资料，写 10 个测试问题。

过合规

按 L1-L4 判断哪些能用、能否上云。

整资料

清洗、切片、打 metadata。

放工具

ima、WorkBuddy、元器、Dify 各归其位。

跑 10 问

用真实问题测命中率。

做诊断

先看资料，再看检索，最后看生成。

概念辨析

先分清：知识库 vs 技能

它们不是竞争关系，而是搭档——技能定义「做事方法」，知识库储备「做事素材」，第 3 课把二者编排进同一个项目助理。

第 1 课 · 技能

怎么做

把流程、输出格式与边界规则封装下来，相当于机构的 SOP + 模板 + 规则。更新频率低——流程变了才改。

输出契约触发说明 Gotchas

本课重点 · 知识库

有什么

历年项目档案、资助指南、案例等可检索的事实与数据。更新频率高——有新材料就补。

项目档案资助指南案例库

知识库地图

从调研痛点出发的知识库地图

调研数据告诉我们，学员最需要的五类知识库内容——按「有用」评分排序，先建最高分的 1-2 类。

14.38

沟通模板

捐赠人邮件模板、媒体问答口径、社区沟通话术

24.38

资助指南

各基金会申请要求、评审标准、往期资助清单

34.29

项目管理

项目计划模板、监测评估框架、财务报告格式

44.17-4.25

案例

成功/失败案例复盘、服务故事、传播素材

54.08

志愿者管理

招募流程、培训手册、志愿者反馈表

数据合规

数据合规 4 档

把资料喂给 AI 之前，必须先分级——从 L1 到 L4，限制越来越严。拿不准时，宁可往高一档放。

L1 公开

可直接用

公众号文章、年报、公开活动总结

上传云端知识库

L2 准公开

审核后可用

脱敏后的案例、内部培训资料

确认脱敏后上传

L3 内部

仅限本地

会议纪要、未发布计划、内部预算

仅 WorkBuddy 本地

L4 敏感

禁止使用

捐赠人手机、受益人身份证、志愿者隐私

禁止写进任何知识库

红线：受益人、志愿者、捐赠人的姓名与联系方式，输出前一律脱敏（姓名→A/B，删除手机/证件号）。拿不准时，宁可不放。

三类材料

三类材料实操

课堂上按材料类型分三组实操——每类有不同的来源、切片方式和 metadata 要求。

类型 A

历年项目档案

云盘里的结项报告、季度总结、活动记录。按「一个项目 = 一份文档」整理。

切片 300-800 字 / 按章节拆分
标签：项目名、年份、资助方、领域

类型 B

PDF 报告与资助指南

基金会申请指南、行业报告、政策文件。PDF 转文本后清理乱码、修复表格。

按章节自然分段 / 保留标题层级
标签：发布机构、年份、文档类型

类型 C

案例与服务故事

传播稿、项目复盘、受益人故事（已脱敏）。统一格式：背景→干预→结果→反思。

一个案例 = 一个切片 / 保持完整
标签：案例类型、领域、年份

工具落位

资料处理清楚后，再决定放进哪个工具

工具不是起点。只有资料已经分级、清洗、打好标签后，ima、WorkBuddy、腾讯元器和 Dify 的分工才会清楚。

初阶个人层

腾讯 ima 知识工作台

快速收纳、阅读、问答、萃取微信文件、网页、PDF、图片和音频，把碎片资料先变成可问答素材。

资料收纳与初步萃取

个人执行层

WorkBuddy

调用个人知识和第 1 课技能完成真实任务，适合草稿、个人辅助和 L3 内部资料。

个人任务执行

组织主线

腾讯元器

把 L1 和审核后的 L2 资料建成组织层知识库，挂载到第 3 课项目助理 AI智能体。

本期首选平台

高阶理解

元器进阶 / Dify

用来解释向量检索、全文检索、混合检索、rerank 和 metadata 过滤，不作为全员主线验收。

RAG 训练场

课程口径：ima 解决个人资料先用起来，WorkBuddy 解决个人任务能跑通，腾讯元器解决组织项目助理能上线，Dify 解决高阶学员看清 RAG 原理。

测试后的诊断工具

先跑 10 问，再理解向量、全文、混合检索

检索模式不是先背的概念，而是命中率不够时用来定位问题的工具。

精确事实

全文检索更稳

适合人名、项目名、编号、日期、政策条款等字面匹配问题。

例：「2024 清河项目巡护次数是多少？」

语义匹配

向量检索更稳

适合换一种说法问同一件事，或寻找相似案例、经验、方法。

例：「哪些案例适合讲社区参与成效？」

综合筛选

混合检索默认优先

适合关键词和语义都重要的问题；大知识库还要配合 metadata 过滤。

例：「找一个湿地教育且有志愿者数据的案例」

判断标准：不是哪个检索模式更高级，而是哪一种更容易把正确材料排到前面。缺资料、切片差、metadata 缺失时，换检索模式也救不了。

命中率诊断

答不好？先判断是哪个环节

知识库建好后，问 10 个真实问题测命中率。答不好时，按下面的诊断树排查——先检索，再生成。

答不好

没找到正确内容：先查资料，再查检索

资料没上传 → 先补充对应文档

切片太大 → 拆细到 300-800 字

缺 metadata → 补标签（年份、项目名、类型）

检索模式不合适 → 精确事实用全文，案例匹配用向量

生成问题（找到了但答得不好）

提示词不够具体 → 回第 1 课改 Output Contract / Gotchas

模型能力不足 → 换更强的模型

口诀：先排查检索，再排查生成。检索问题更常见，也更容易修——多数时候切片和标签改一轮就能提升 10-20% 的命中率。

下一步 · 第 3 课

技能 + 知识库 → 编排成项目助理

技能知道怎么做，知识库提供弹药——下一步，把它们编排成一个完整的项目助理。第 3 课教你把多个技能和知识库挂到同一个 AI 智能体上，让它根据意图自动选技能、查知识库、给出回答。

进入第 3 课 · AI智能体打开第 2 课学员手册

让散乱的资料变成 AI 能检索的资产