第 2 课 · 知识库

让散乱的资料
变成 AI 能检索的资产

约 50% 的环境公益机构把「资料散落各处、案例难以复用」列为最大痛点。 这节课带你把散落在云盘、微信、邮件附件里的项目档案、资助指南、历年案例, 整理成 AI 能准确检索的知识库。先用 ima 和 WorkBuddy 处理个人资料, 再用腾讯元器搭建组织层项目助理知识库,高阶部分理解检索机制与调参方法。

时长 120 分钟 产出 ima / WorkBuddy + 腾讯元器知识库 主线第二步:知识库

课后自测:课后测验(10 题)→ 覆盖本课 5 项教学目标(知识库本质 / 工具选型 / 合规分级 / 检索模式 / 命中率诊断),每题标注对应《学员手册》章节。

学习路线

先想清楚,再动工具:7 步走完一轮知识库

这节课不是平台功能课。先确定项目助理要回答什么,再处理资料,最后才选择工具、测试和调优。

1

看清关系

技能定义做法,知识库提供事实。

2

定范围

选 1-2 类资料,写 10 个测试问题。

3

过合规

按 L1-L4 判断哪些能用、能否上云。

4

整资料

清洗、切片、打 metadata。

5

放工具

ima、WorkBuddy、元器、Dify 各归其位。

6

跑 10 问

用真实问题测命中率。

7

做诊断

先看资料,再看检索,最后看生成。

概念辨析

先分清:知识库 vs 技能

它们不是竞争关系,而是搭档——技能定义「做事方法」,知识库储备「做事素材」,第 3 课把二者编排进同一个项目助理。

第 1 课 · 技能

怎么做

把流程、输出格式与边界规则封装下来,相当于机构的 SOP + 模板 + 规则。更新频率低——流程变了才改。

输出契约 触发说明 Gotchas
本课重点 · 知识库

有什么

历年项目档案、资助指南、案例等可检索的事实与数据。更新频率高——有新材料就补。

项目档案 资助指南 案例库
知识库地图

从调研痛点出发的知识库地图

调研数据告诉我们,学员最需要的五类知识库内容——按「有用」评分排序,先建最高分的 1-2 类。

14.38

沟通模板

捐赠人邮件模板、媒体问答口径、社区沟通话术

24.38

资助指南

各基金会申请要求、评审标准、往期资助清单

34.29

项目管理

项目计划模板、监测评估框架、财务报告格式

44.17-4.25

案例

成功/失败案例复盘、服务故事、传播素材

54.08

志愿者管理

招募流程、培训手册、志愿者反馈表

数据合规

数据合规 4 档

把资料喂给 AI 之前,必须先分级——从 L1 到 L4,限制越来越严。拿不准时,宁可往高一档放。

L1 公开

可直接用

公众号文章、年报、公开活动总结

上传云端知识库
L2 准公开

审核后可用

脱敏后的案例、内部培训资料

确认脱敏后上传
L3 内部

仅限本地

会议纪要、未发布计划、内部预算

仅 WorkBuddy 本地
L4 敏感

禁止使用

捐赠人手机、受益人身份证、志愿者隐私

禁止写进任何知识库

红线:受益人、志愿者、捐赠人的姓名与联系方式,输出前一律脱敏(姓名→A/B,删除手机/证件号)。拿不准时,宁可不放。

三类材料

三类材料实操

课堂上按材料类型分三组实操——每类有不同的来源、切片方式和 metadata 要求。

类型 A

历年项目档案

云盘里的结项报告、季度总结、活动记录。按「一个项目 = 一份文档」整理。

切片 300-800 字 / 按章节拆分
标签:项目名、年份、资助方、领域

类型 B

PDF 报告与资助指南

基金会申请指南、行业报告、政策文件。PDF 转文本后清理乱码、修复表格。

按章节自然分段 / 保留标题层级
标签:发布机构、年份、文档类型

类型 C

案例与服务故事

传播稿、项目复盘、受益人故事(已脱敏)。统一格式:背景→干预→结果→反思。

一个案例 = 一个切片 / 保持完整
标签:案例类型、领域、年份

工具落位

资料处理清楚后,再决定放进哪个工具

工具不是起点。只有资料已经分级、清洗、打好标签后,ima、WorkBuddy、腾讯元器和 Dify 的分工才会清楚。

初阶个人层

腾讯 ima 知识工作台

快速收纳、阅读、问答、萃取微信文件、网页、PDF、图片和音频,把碎片资料先变成可问答素材。

资料收纳与初步萃取
个人执行层

WorkBuddy

调用个人知识和第 1 课技能完成真实任务,适合草稿、个人辅助和 L3 内部资料。

个人任务执行
组织主线

腾讯元器

把 L1 和审核后的 L2 资料建成组织层知识库,挂载到第 3 课项目助理 AI智能体。

本期首选平台
高阶理解

元器进阶 / Dify

用来解释向量检索、全文检索、混合检索、rerank 和 metadata 过滤,不作为全员主线验收。

RAG 训练场

课程口径:ima 解决个人资料先用起来,WorkBuddy 解决个人任务能跑通,腾讯元器解决组织项目助理能上线,Dify 解决高阶学员看清 RAG 原理。

测试后的诊断工具

先跑 10 问,再理解向量、全文、混合检索

检索模式不是先背的概念,而是命中率不够时用来定位问题的工具。

精确事实

全文检索更稳

适合人名、项目名、编号、日期、政策条款等字面匹配问题。

例:「2024 清河项目巡护次数是多少?」

语义匹配

向量检索更稳

适合换一种说法问同一件事,或寻找相似案例、经验、方法。

例:「哪些案例适合讲社区参与成效?」

综合筛选

混合检索默认优先

适合关键词和语义都重要的问题;大知识库还要配合 metadata 过滤。

例:「找一个湿地教育且有志愿者数据的案例」

判断标准:不是哪个检索模式更高级,而是哪一种更容易把正确材料排到前面。缺资料、切片差、metadata 缺失时,换检索模式也救不了。

命中率诊断

答不好?先判断是哪个环节

知识库建好后,问 10 个真实问题测命中率。答不好时,按下面的诊断树排查——先检索,再生成。

答不好
生成问题(找到了但答得不好)
1
提示词不够具体 → 回第 1 课改 Output Contract / Gotchas
2
模型能力不足 → 换更强的模型

口诀:先排查检索,再排查生成。检索问题更常见,也更容易修——多数时候切片和标签改一轮就能提升 10-20% 的命中率。