用于企业知识库的 RAG:将 AI 融入您的公司数据
大型语言模型对世界了解很多。他们对你的公司一无所知。他们无法告诉客户您的退货政策是什么。他们无法解释您的内部费用审批流程。他们无法对您的专有产品进行故障排除,因为他们从未见过您的文档。
检索增强生成(RAG)弥补了这一差距。 RAG 不依赖模型的训练数据,而是从企业知识库中检索相关信息并将其包含在提示上下文中。结果:人工智能的答案基于您的实际公司数据,带有来源引用,并且将幻觉降至最低。
到 2026 年,RAG 将成为部署最广泛的企业 AI 架构——比微调更常见,而且更具成本效益。本指南涵盖了完整的 RAG 实施生命周期:架构、数据准备、检索策略、评估和生产部署。
本文是我们的人工智能业务转型 系列的一部分。
要点
- RAG 通过将响应基于经过验证的公司数据,将 AI 幻觉率从 15-25% 降低到 3% 以下
- RAG 系统的质量 80% 取决于数据准备和检索策略,20% 取决于法学硕士
- 分块策略是最有影响力的技术决策——分块太小,你会失去上下文,太大,你会稀释相关性
- Enterprise RAG 需要反映您现有文档权限的访问控制
- 现代 RAG 实施部署成本为 5,000-50,000 美元,运营成本为每月 500-2,000 美元,具体取决于数据量
RAG 的工作原理
RAG 管道
- 用户提问 ---“我们对企业客户的退款政策是什么?”
- 查询处理 --- 系统将问题转换为搜索查询(通常通过嵌入)
- 检索 --- 系统搜索您的知识库并检索最相关的文档或段落
- 上下文组装 --- 检索到的段落与原问题组合成提示
- LLM生成 --- LLM使用其常识和检索到的上下文生成答案
- 来源引用 --- 回复包括对源文件的引用
RAG 与微调与即时工程
| 方法 | 最适合 | 成本 | 更新速度 | 准确度 |
|---|---|---|---|---|
| 抹布 | 事实问答、文档、政策 | 中等(5000-50000 美元) | 分钟(重新索引) | 高(检索良好) |
| 微调 | 行为/风格变化,领域术语 | 高 ($10K-100K+) | 周(重新训练) | 中等(可以产生幻觉) |
| 及时工程 | 简单的任务,少量的示例 | 低(仅限时间) | 即时 | 变化(有限的上下文) |
| RAG + 微调 | 专业领域的最高精确度 | 非常高 | 变化 | 最高 |
对于大多数企业知识库应用程序,RAG 仅以极低的成本即可提供 90% 以上的价值。
构建企业 RAG 系统
第 1 步:数据源清单
绘制组织中的每个知识源:
| 来源类型 | 示例 | 典型体积 | 复杂性 |
|---|---|---|---|
| 结构化文档 | SOP、政策、手册 | 100-1,000 个文档 | 低 |
| 产品文档 | 用户指南、API 文档、发行说明 | 500-5,000 页 | 中等 |
| 支持知识库 | 常见问题解答文章、故障排除指南 | 200-2,000 篇文章 | 低 |
| 汇合/维基 | 内部文档、项目文档 | 1,000-10,000 页 | 中等 |
| 电子邮件档案 | 客户沟通、内部备忘录 | 10,000-100,000 封电子邮件 | 高 |
| 客户关系管理记录 | 客户备注、通话记录、交易历史记录 | 5,000-50,000 条记录 | 中等 |
| ERP数据 | 产品规格、定价、库存水平 | 差异很大 | 中等 |
第 2 步:数据准备
文档清理。 删除样板文件(页眉、页脚、导航)、修复格式问题、解决损坏的链接并标准化术语。
分块。 将文档拆分为可检索的单元。这是最关键的决定:
| 战略 | 块大小 | 最适合 | 优点 | 缺点 |
|---|---|---|---|---|
| 固定尺寸 | 256-512 代币 | 简单文件 | 易于实施 | 可能会在句子中间分裂 |
| 基于段落的 | 变量 | 结构良好的文档 | 保留上下文 | 块大小不均匀 |
| 语义 | 变量 | 复杂文件 | 最佳检索质量 | 实施起来更复杂 |
| 分层 | 家长+孩子 | 技术文档 | 捕捉细节和背景 | 需要精心设计 |
| 推拉窗 | 重叠 | 密集的信息文本 | 减少边界效应 | 存储空间越大,检索速度越慢 |
针对大多数企业知识库的推荐方法: 目标大小为 300-500 个标记的语义分块,保留段落边界,有 50 个标记重叠。
步骤 3:嵌入和索引
将文本块转换为向量嵌入以进行语义搜索:
| 嵌入模型 | 尺寸 | 品质 | 速度 | 成本 |
|---|---|---|---|---|
| OpenAI 文本嵌入-3-大 | 3,072 | 3,072优秀 | 快 | 0.13 美元/100 万代币 |
| OpenAI 文本嵌入-3-小 | 1,536 | 1,536非常好 | 非常快 | 0.02 美元/100 万代币 |
| Cohere 嵌入-v3 | 1,024 | 1,024非常好 | 快 | 0.10 美元/100 万代币 |
| Voyage AI voyage-large-2 | 1,536 | 1,536优秀 | 快 | 0.12 美元/100 万代币 |
| BGE-large(开源) | 1,024 | 1,024好 | 自托管 | 免费(计算成本) |
用于存储的矢量数据库:
| 数据库 | 管理 | 可扩展性 | 最适合 |
|---|---|---|---|
| 松果 | 是的 | 优秀 | 初创公司,中端市场 |
| 维维特 | 两者 | 非常好 | 混合搜索需求 |
| Qdrant | 两者 | 非常好 | 自托管,注重成本 |
| pgvector(PostgreSQL) | 自我 | 好 | 已经在使用 PostgreSQL |
| 色度 | 自我 | 好 | 原型设计、小型数据集 |
对于已经运行 PostgreSQL 的企业(如 Odoo 用户),pgvector 提供了一个简单的起点,无需引入新的数据库。
步骤 4:检索策略
基本 RAG 检索前 k 个最相似的块。高级 RAG 使用多种策略:
混合搜索。 将语义(向量)搜索与关键字(BM25)搜索相结合。语义捕捉意义;关键词捕捉准确的术语。使用加权融合(通常 70% 语义,30% 关键字)。
重新排名。 初始检索后,使用交叉编码器模型对结果的相关性重新排名。这显着提高了精度,而不影响初始检索速度。
查询扩展。 使用 LLM 将用户的查询重新表述为多个搜索查询,然后合并结果。捕捉同一意图的不同措辞。
元数据过滤。 在语义搜索之前按文档类型、部门、日期或访问级别过滤结果。减少噪音并遵守访问控制。
企业 RAG 架构模式
模式 1:特定于部门的 RAG
每个部门都有自己的知识库和 RAG 管道:
- 支持团队:产品文档+常见问题解答+票证历史记录
- 销售团队:产品规格+定价+竞争情报+案例研究
- 财务团队:政策+程序+监管指导
优点: 集中检索、更轻松的访问控制、更小的索引。 缺点: 跨部门知识重复,需要维护多个系统。
模式 2:统一企业 RAG
跨越所有部门的单一知识库,具有基于角色的访问控制:
- 一个索引,多个访问层
- 基于用户角色和查询意图的查询路由
- 经授权后可提供跨部门知识
优点: 全面的答案,无孤岛,单一系统。 缺点: 更复杂的访问控制、更大的索引、潜在的不相关检索。
模式 3:联合 RAG
并行查询多个专用索引,结果合并:
- 每个部门维护自己的索引
- 路由层决定查询哪些索引
- 结果被合并、去重并重新排名
优点: 部门自治,两全其美。 缺点: 复杂的编排、潜在的延迟。
OpenClaw 的企业实施 通过内置访问控制和数据源连接器支持所有三种模式。
测量 RAG 性能
关键指标
| 公制 | 定义 | 目标 |
|---|---|---|
| 检索精度 | 检索到的相关块的百分比 | >80% |
| 检索召回 | 检索到的相关块的百分比 | >70% |
| 答案准确度 | 事实上正确的答案百分比 | >95% |
| 幻觉率 | 检索到的上下文不支持声明的百分比 | <3% |
| 来源归属 | 正确引用来源的答案的百分比 | >90% |
| 延迟 | 从查询到回复的时间 | <3秒 |
| 用户满意度 | 用户对回答质量的评价 | >4.0/5.0 |
评估框架
构建包含 200-500 个问答对的评估数据集,涵盖:
- 常见问题 (60%):常见问题、有详细记录的答案
- 边缘情况(20%):不寻常的问题、跨多个文档的信息
- 负面案例(10%):系统应拒绝回答的问题
- 多跳 (10%):需要 2 个以上文档提供信息的问题
每周运行此评估以捕获质量回归。
常见的 RAG 陷阱
陷阱 1:分块效果不佳。 在句子中间分割段落或组合不相关部分的块会产生不相关的检索。投入时间进行分块策略。
陷阱 2:过时的数据。 如果您的知识库在政策或产品发生变化时没有更新,RAG 将放心地提供过时的信息。实施自动重新索引管道。
陷阱3:忽略访问控制。 实习生不应该仅仅因为语义相似度很高就从董事会级别的财务文件中获得答案。在 RAG 系统中镜像您的文档权限。
陷阱4:过度检索。 在提示中塞入太多的内容会压垮LLM并淡化相关信息。检索 3-5 个高度相关的块,而不是 20 个有些相关的块。
陷阱 5:没有评估。 如果没有系统评估,您就无法知道您的 RAG 系统是在改进还是在退化。从第一天起就将评估纳入您的部署中。
常见问题
我们需要多少数据才能实现有效的 RAG?
RAG 只适用于 50-100 个结构良好的文档。质量比数量更重要。由 500 个文档组成的干净、分块的知识库胜过由 50,000 个文档组成的混乱语料库。从您最常查询的内容(常见问题解答、关键政策、核心产品文档)开始,然后从那里进行扩展。
RAG 可以处理库存水平或定价等实时数据吗?
标准 RAG 针对半静态内容(文档、政策)进行了优化。对于实时数据,请使用混合方法:用于知识内容的 RAG 以及用于实时数据的直接 API 查询。 AI 代理(通过 OpenClaw)自然地通过将 RAG 检索与对 Odoo 或 Shopify 等实时系统的工具调用相结合来处理此问题。
RAG和传统搜索引擎有什么区别?
搜索引擎返回文档。 RAG 返回答案。 “我们的企业客户退款政策是什么?”的搜索引擎返回完整的保单文件。 RAG 阅读了该文件并回答:“企业客户可以在购买后 30 天内申请全额退款。30 天后,年度合同可按比例退款。”并附有来源链接。
我们如何处理多语言企业知识库?
现代嵌入模型(OpenAI、Cohere)原生支持多语言嵌入——法语查询可以检索英语文档,反之亦然。为了获得最佳结果,请以原始语言嵌入文档,并让法学硕士在响应中处理翻译。对于关键应用程序,请为每种语言维护单独的索引。
开始构建您的企业 RAG 系统
RAG 是企业 AI 的基础,它准确、值得信赖,并且基于公司的实际知识。与可以实际回答有关您业务的问题的人工智能助手的价值相比,这项投资并不多。
- 实施企业 RAG: OpenClaw 实施 包括 RAG 管道设置以及与文档源的连接器
- 探索知识管理: Odoo 知识库设置
- 相关阅读: 【LLM企业应用】(/blog/llm-enterprise-applications) | 自动化人工智能代理 | 【人工智能业务转型指南】(/blog/ai-business-transformation-guide)
作者
ECOSIRE Research and Development Team
在 ECOSIRE 构建企业级数字产品。分享关于 Odoo 集成、电商自动化和 AI 驱动商业解决方案的洞见。