属于我们的Security & Cybersecurity系列
阅读完整指南AI 代理安全最佳实践:保护自治系统
与生产系统交互、访问敏感数据并做出自主决策的人工智能代理引入了一种新的安全风险类别。传统的应用程序安全解决代码漏洞和网络威胁。人工智能代理安全还必须解决及时注入、权限升级、模型输出导致的数据泄露,以及基于概率推理做出决策的控制系统的挑战。本指南涵盖了用于安全部署 AI 代理的综合安全框架。
要点
- AI代理安全需要跨五层的深度防御:输入验证、权限边界、执行沙箱、输出过滤和审计日志记录
- 即时注入是针对人工智能代理的主要攻击媒介,需要结构性防御,而不仅仅是内容过滤
- 最小权限原则对人工智能代理的应用比对人类用户更严格,因为代理以机器速度运行
- 生产系统上的所有代理操作都必须记录足够的详细信息,以便进行取证分析
- 在代理可靠性得到验证之前,人机交互检查点对于高影响力的运营至关重要
AI 代理威胁模型
攻击面
AI 代理暴露了传统应用程序之外的攻击面:
| 攻击向量 | 描述 | 风险等级 |
|---|---|---|
| 及时注射 | 改变代理行为的恶意输入 | 关键 |
| 权限升级 | 代理访问超出其范围的资源 | 高 |
| 数据泄露 | 通过代理输出暴露的敏感数据 | 高 |
| 拒绝服务 | 代理资源不堪重负或触发无限循环 | 中等 |
| 供应链 | 技能、插件或模型权重受到影响 | 高 |
| 社会工程 | 通过对话欺骗来操纵代理人 | 中等 |
| 训练数据中毒 | 损坏的训练数据影响代理决策 | 中等 |
风险类别
| 类别 | 示例 |
|---|---|
| 保密 | 代理泄露客户 PII、财务数据或商业秘密 |
| 诚信 | 代理错误修改数据,创建欺诈记录 |
| 可用性 | Agent消耗过多资源,阻止合法操作 |
| 合规 | 代理行为违反法规(GDPR、HIPAA、SOX) |
第 1 层:输入验证
及时注入防御
当用户输入包含覆盖代理系统提示的指令时,就会发生提示注入。结构防御包括:
输入/指令分离:在系统指令和用户输入之间保持严格的界限。切勿将用户输入直接连接到系统提示符中。
输入清理:在处理之前从用户输入中去除或转义控制字符、特殊标记和类似指令的模式。
上下文过滤:检测并标记包含类似于系统指令、角色扮演请求(“忽略先前指令...”)或编码技巧(base64、ROT13、Unicode)的模式的输入。
输入验证规则
| 规则 | 实施 | 目的 |
|---|---|---|
| 长度限制 | 每个字段的最大输入长度 | 防止上下文溢出 |
| 字符过滤 | 块控制字符和特殊标记 | 通过编码防止注入 |
| 模式检测 | 标记已知注入模式 | 捕捉直接攻击 |
| 速率限制 | 每个时间窗口每个用户的最大请求数 | 防止暴力攻击 |
| 格式验证 | 强制执行预期的输入结构 | 防止结构化字段中的自由注入 |
纵深防御
没有任何单一的防御措施可以阻止所有即时注入。多层防御:
- 输入清理消除已知的攻击模式
- 系统提示强化抵抗覆盖尝试
- 输出验证捕获非预期代理行为
- 权限边界限制注入成功造成的损害
- 审计日志记录可实现检测和取证分析
第二层:权限边界
最小特权原则
每个 AI 代理应拥有其功能所需的最低权限:
| 代理类型 | 阅读权限 | 写入权限 | 已屏蔽 |
|---|---|---|---|
| 客户服务 | 客户记录、订单、常见问题解答 | 票证创建、注释 | 财务数据、管理设置 |
| 库存监控 | 库存水平、产品数据 | 警报创建 | 价格变更、删除 |
| 报告生成器 | 所有业务数据(只读) | 报告文件创建 | 任何写入业务记录 |
| 销售助理 | CRM 联系人、渠道、产品 | 机会更新、任务创建 | 财务记录、人力资源数据 |
权限执行
在基础设施级别而不是提示级别实施权限:
- API 密钥范围:颁发具有特定端点访问权限的 API 密钥
- 数据库视图:为代理数据访问创建只读视图
- 网络分段:仅限制代理网络访问所需服务
- 文件系统隔离:代理不应访问指定目录之外的文件系统
预防升级
防止代理升级自己的权限:
- 绝不允许代理修改自己的权限配置
- 不要向代理帐户公开管理 API 或权限管理端点
- 监控异常访问模式(代理访问正常范围之外的资源)
- 实施不能被代理推理覆盖的硬限制
第 3 层:执行沙箱
沙盒环境
在隔离环境中运行 AI 代理工作负载:
| 隔离级别 | 技术 | 使用案例 |
|---|---|---|
| 集装箱 | Docker、Kubernetes Pod | 标准座席工作负载 |
| 虚拟机 | 轻量级虚拟机 (Firecracker) | 不受信任的代码执行 |
| 网络组装 | Wasm 沙箱 | 插件/技能执行 |
| 网络命名空间 | 每个代理的网络隔离 | 防止横向移动 |
资源限制
防止代理消耗过多资源:
| 资源 | 限制 | 为什么 |
|---|---|---|
| 中央处理器 | 每个代理的最大核心数 | 防止计算垄断 |
| 内存 | 最大内存分配 | 防止内存不足的情况 |
| 网络 | API 调用速率限制 | 防止拒绝服务 |
| 存储 | 最大磁盘使用量 | 防止磁盘耗尽 |
| 执行时间 | 每个任务的最大运行时间 | 防止无限循环 |
| API 调用 | 每分钟最大外部呼叫数 | 防止滥用和成本超支 |
超时和断路器
- 设置每个代理任务的最大执行时间
- 实施断路器,在重复失败后禁用代理
- 配置任务失败时部分操作自动回滚
第 4 层:输出过滤
数据泄露预防
过滤代理输出以防止敏感数据泄露:
| 过滤器类型 | 它捕获了什么 | 实施 |
|---|---|---|
| PII检测 | 姓名、电子邮件、电话号码、SSN | 正则表达式模式 + ML 分类器 |
| 财务数据 | 信用卡号码、银行账户 | Luhn 验证 + 模式匹配 |
| 证书 | API 密钥、密码、令牌 | 熵分析+模式匹配 |
| 内部数据 | 系统架构、IP地址 | 自定义图案规则 |
输出验证
验证代理输出是否与预期格式匹配:
- 结构化输出(JSON、数据库写入)必须符合定义的模式
- 应检查自然语言输出的幻觉指标
- 操作输出(API 调用、文件操作)必须符合声明的意图
- 对用户的回复不得包含系统提示内容或内部推理
内容安全
对于面向客户的代理商:
- 过滤输出中的不当内容
- 确保响应保持在代理定义的范围内
- 防止代理人做出未经授权的承诺或承诺
- 阻止可能构成法律、医疗或财务建议的输出(除非特别授权)
第 5 层:审核日志记录
记录什么
每个代理操作都必须记录足够的详细信息:
| 日志字段 | 内容 | 目的 |
|---|---|---|
| 时间戳 | 精准的行动时间 | 时间线重建 |
| 代理 ID | 哪个代理执行了该操作 | 问责制 |
| 动作类型 | 读、写、API 调用、决策 | 分类 |
| 输入 | 是什么触发了这一行动 | 根本原因分析 |
| 输出 | 行动产生了什么 | 影响评估 |
| 目标 | 哪个系统/记录受到影响 | 范围确定 |
| 用户上下文 | 哪个用户(如果有)发起了流程 | 归因 |
| 决策推理 | 代理人为何选择此行动 | 可解释性 |
日志保留
| 日志类型 | 保留期限 | 存储 |
|---|---|---|
| 安全事件 | 2 年以上 | 不可变存储 |
| 财务行动 | 7 年以上(监管) | 不可变存储 |
| 操作日志 | 90 天 | 标准存储 |
| 调试日志 | 30 天 | 临时存储 |
异常检测
监控日志中是否存在可疑模式:
- 异常的访问时间(代理在工作时间之外运行,没有计划任务)
- 访问模式发生变化(代理突然读取不同的数据类别)
- 错误率峰值(潜在的注入尝试)
- 交易量异常(10 倍正常 API 调用)
人机交互控制
何时需要人类批准
| 运营类别 | 批准要求 |
|---|---|
| 超过门槛的金融交易 | 始终需要批准 |
| 批量数据修改(100+记录) | 始终需要批准 |
| 与客户的外部沟通 | 需要批准,直到可靠性得到证实 |
| 系统配置变更 | 始终需要批准 |
| 以前没有见过的新模式/行为 | 标记供审查 |
审批工作流程
- 代理确定需要批准的操作
- 发送包含背景和理由的批准请求
- 人工审查和批准、修改或拒绝
- 代理执行批准的操作(或修改版本)
- 记录结果以供未来培训和政策完善
毕业自治
从严格的人工监督开始,然后逐渐放松:
| 相 | 监督级别 | 持续时间 |
|---|---|---|
| 1.阴影模式 | 特工暗示,人类处决 | 2-4 周 |
| 2. 监督 | 代理执行,人工审核全部 | 2-4 周 |
| 3.抽查 | 代理执行,人工审查样本 (20%) | 4-8 周 |
| 4.基于异常的 | 代理执行,人工审查异常情况 | 正在进行 |
OpenClaw 安全功能
OpenClaw 在本地实现了这些安全最佳实践:
- 基于角色的代理权限访问控制
- 内置提示注入检测和过滤
- 技能执行的执行沙箱
- 具有可配置保留功能的全面审计日志记录
- 人工审批工作流程集成
- 异常检测仪表板
ECOSIRE 人工智能安全服务
安全地部署人工智能代理需要涵盖网络安全和人工智能系统的专业知识。 ECOSIRE 的 OpenClaw 安全强化服务 实现了本指南中描述的完整安全框架。我们的 OpenClaw 实施服务 包括安全架构作为每个部署的核心组件。
相关阅读
人工智能代理能否完全安全地防止即时注入?
没有任何一种防御措施能够完全消除即时注入风险。其目标是深度防御,使成功注入变得越来越困难,并限制注入发生时的影响。指令与用户输入的结构分离、严格的权限边界和输出验证一起将风险降低到大多数业务应用程序可接受的水平。
人工智能代理是否应该有权访问生产数据库?
AI 代理应通过具有权限范围的 API 层访问生产数据,而不是通过直接数据库连接。这可确保执行访问控制、审核日志记录和速率限制。对于只读代理,数据库副本或只读视图提供了额外的安全层。
您如何处理 AI 代理的合规性要求(GDPR、HIPAA)?
在合规框架下,像对待任何其他系统用户一样对待人工智能代理。实施数据最小化(代理仅访问他们需要的数据)、目的限制(代理仅将数据用于其定义的功能)、日志记录和审计跟踪以及数据主体权利支持(能够根据请求查找和删除代理处理的个人数据)。
作者
ECOSIRE Research and Development Team
在 ECOSIRE 构建企业级数字产品。分享关于 Odoo 集成、电商自动化和 AI 驱动商业解决方案的洞见。
相关文章
更多来自Security & Cybersecurity
中小企业云安全最佳实践:无需安全团队即可保护您的云
通过 IAM、数据保护、监控和合规性的实用最佳实践来保护您的云基础设施,中小企业无需专门的安全团队即可实施这些实践。
按地区划分的网络安全监管要求:全球企业合规地图
了解美国、欧盟、英国、亚太地区和中东的网络安全法规。涵盖 NIS2、DORA、SEC 规则、关键基础设施要求和合规时间表。
端点安全管理:保护组织中的每台设备
通过针对现代员工的设备保护、EDR 部署、补丁管理和 BYOD 策略的最佳实践来实施端点安全管理。
事件响应计划模板:准备、检测、响应、恢复
使用我们完整的模板制定事件响应计划,涵盖准备、检测、遏制、根除、恢复和事件后审查。
企业渗透测试指南:范围、方法和补救措施
使用我们的业务指南规划和执行渗透测试,涵盖范围定义、测试方法、供应商选择、报告解释和补救措施。
安全意识培训计划设计:将人为风险降低 70%
设计一个安全意识培训计划,通过引人入胜的内容、模拟和可衡量的结果,将网络钓鱼点击率降低 70%。