看清关系
技能定义做法,知识库提供事实。
约 50% 的环境公益机构把「资料散落各处、案例难以复用」列为最大痛点。 这节课带你把散落在云盘、微信、邮件附件里的项目档案、资助指南、历年案例, 整理成 AI 能准确检索的知识库。先用 ima 和 WorkBuddy 处理个人资料, 再用腾讯元器搭建组织层项目助理知识库,高阶部分理解检索机制与调参方法。
课后自测:课后测验(10 题)→ 覆盖本课 5 项教学目标(知识库本质 / 工具选型 / 合规分级 / 检索模式 / 命中率诊断),每题标注对应《学员手册》章节。
这节课不是平台功能课。先确定项目助理要回答什么,再处理资料,最后才选择工具、测试和调优。
技能定义做法,知识库提供事实。
选 1-2 类资料,写 10 个测试问题。
按 L1-L4 判断哪些能用、能否上云。
清洗、切片、打 metadata。
ima、WorkBuddy、元器、Dify 各归其位。
用真实问题测命中率。
先看资料,再看检索,最后看生成。
它们不是竞争关系,而是搭档——技能定义「做事方法」,知识库储备「做事素材」,第 3 课把二者编排进同一个项目助理。
把流程、输出格式与边界规则封装下来,相当于机构的 SOP + 模板 + 规则。更新频率低——流程变了才改。
历年项目档案、资助指南、案例等可检索的事实与数据。更新频率高——有新材料就补。
调研数据告诉我们,学员最需要的五类知识库内容——按「有用」评分排序,先建最高分的 1-2 类。
捐赠人邮件模板、媒体问答口径、社区沟通话术
各基金会申请要求、评审标准、往期资助清单
项目计划模板、监测评估框架、财务报告格式
成功/失败案例复盘、服务故事、传播素材
招募流程、培训手册、志愿者反馈表
把资料喂给 AI 之前,必须先分级——从 L1 到 L4,限制越来越严。拿不准时,宁可往高一档放。
公众号文章、年报、公开活动总结
脱敏后的案例、内部培训资料
会议纪要、未发布计划、内部预算
捐赠人手机、受益人身份证、志愿者隐私
红线:受益人、志愿者、捐赠人的姓名与联系方式,输出前一律脱敏(姓名→A/B,删除手机/证件号)。拿不准时,宁可不放。
课堂上按材料类型分三组实操——每类有不同的来源、切片方式和 metadata 要求。
云盘里的结项报告、季度总结、活动记录。按「一个项目 = 一份文档」整理。
切片 300-800 字 / 按章节拆分
标签:项目名、年份、资助方、领域
基金会申请指南、行业报告、政策文件。PDF 转文本后清理乱码、修复表格。
按章节自然分段 / 保留标题层级
标签:发布机构、年份、文档类型
传播稿、项目复盘、受益人故事(已脱敏)。统一格式:背景→干预→结果→反思。
一个案例 = 一个切片 / 保持完整
标签:案例类型、领域、年份
工具不是起点。只有资料已经分级、清洗、打好标签后,ima、WorkBuddy、腾讯元器和 Dify 的分工才会清楚。
快速收纳、阅读、问答、萃取微信文件、网页、PDF、图片和音频,把碎片资料先变成可问答素材。
调用个人知识和第 1 课技能完成真实任务,适合草稿、个人辅助和 L3 内部资料。
把 L1 和审核后的 L2 资料建成组织层知识库,挂载到第 3 课项目助理 AI智能体。
用来解释向量检索、全文检索、混合检索、rerank 和 metadata 过滤,不作为全员主线验收。
课程口径:ima 解决个人资料先用起来,WorkBuddy 解决个人任务能跑通,腾讯元器解决组织项目助理能上线,Dify 解决高阶学员看清 RAG 原理。
检索模式不是先背的概念,而是命中率不够时用来定位问题的工具。
适合人名、项目名、编号、日期、政策条款等字面匹配问题。
例:「2024 清河项目巡护次数是多少?」
适合换一种说法问同一件事,或寻找相似案例、经验、方法。
例:「哪些案例适合讲社区参与成效?」
适合关键词和语义都重要的问题;大知识库还要配合 metadata 过滤。
例:「找一个湿地教育且有志愿者数据的案例」
判断标准:不是哪个检索模式更高级,而是哪一种更容易把正确材料排到前面。缺资料、切片差、metadata 缺失时,换检索模式也救不了。
知识库建好后,问 10 个真实问题测命中率。答不好时,按下面的诊断树排查——先检索,再生成。
口诀:先排查检索,再排查生成。检索问题更常见,也更容易修——多数时候切片和标签改一轮就能提升 10-20% 的命中率。
技能知道怎么做,知识库提供弹药——下一步,把它们编排成一个完整的项目助理。第 3 课教你把多个技能和知识库挂到同一个 AI 智能体上,让它根据意图自动选技能、查知识库、给出回答。