训练和微调 OpenClaw 技能

与通用基础模型一起部署的 OpenClaw 技能对于标准业务任务（文档摘要、结构化数据提取、工作流程协调）表现良好。但特定领域的任务——医疗编码、法律条款分析、专业技术分类、特定行业的风险评估——需要针对特定领域调整的模型和提示，以实现生产质量的准确性。

本指南涵盖了训练和微调 OpenClaw 技能的完整工作流程：从识别何时需要微调，到数据准备、微调执行、评估和持续迭代。

要点

与通用基础模型相比，微调将特定领域任务的准确性提高了 15-40%

在投资微调之前应该先用尽快速工程和少量学习

大多数业务任务的微调需要 500-5,000 个高质量的训练示例

数据质量比数量更重要——500 个优秀示例胜过 5,000 个平庸示例

在将微调模型部署到生产之前，需要针对保留的测试集进行评估

当业务规则发生变化或检测到模型漂移时，微调模型需要重新训练

LoRA 等 PEFT（参数高效微调）方法无需大量计算即可进行微调

4-8 周的迭代周期可保持模型性能随着时间的推移不断提高

何时需要（或不需要）微调

微调并不是提高智能体准确性的第一手段——它是用尽更简单的方法后的最后手段。投资在特定情况下是合理的。

从这里开始：提示工程。 在任何培训投资之前，优化提示。对于同一任务，平庸和出色的提示之间的差异通常是准确率提高 20-30%。技巧：清晰的任务描述、明确的输出格式规范、思路链式指令、提示中的一两个示例（少量）。当更好的及时工程可以解决问题时，许多团队会进行微调。

**然后：RAG（检索增强生成）。**对于需要访问特定知识（产品目录详细信息、监管规则、公司特定信息）的任务，提供上下文中的相关知识通常比微调模型以“了解”信息更有效。 RAG 更易于维护——当信息发生变化时，更新知识库，而不是模型。

然后：提示中的少量示例。 在提示中添加 3-10 个高质量输入/输出示例（上下文学习）可显着提高结构化任务的性能。这是演示输出格式、详细程度和风格期望的最快方法。

在以下情况下进行微调是合理的：

该任务需要不适合上下文的内化知识（广泛的监管规则手册、大型产品分类层次结构）
输出格式非常具体，上下文中的示例尚未实现一致的合规性
该任务使用通用模型无法正确处理的专业术语
延迟约束禁止大的上下文窗口（微调模型速度更快，精度相同）
在用尽即时工程和 RAG 方法后，精度仍低于阈值

了解 OpenClaw 技能架构

在深入进行微调之前，了解技能如何发挥作用可以塑造培训方法。

技能是已配置的代理功能，具有四个组件：

**系统提示：**定义技能的角色、任务、输出格式和限制的说明。这是非微调改进的主要杠杆。

输入架构： 定义技能接受的结构化输入 - 它期望哪些数据字段、它们的类型以及需要哪些数据字段。

模型配置： 用于此技能的基础模型和推理参数（温度、最大令牌、top-p）。不同的任务受益于不同的设置。

输出架构： 定义结构化输出格式。具有强大输出模式的技能比具有自由格式输出的技能产生更一致、可解析的结果。

微调针对模型组件 - 调整模型权重以更好地执行您的特定技能任务和领域。提示优化针对的是系统提示。两者是互补的。

微调方法

全面微调： 所有模型参数都会在训练期间更新。产生最大的精度增益，但需要大量计算并且成本昂贵。仅适用于拥有 ML 工程资源和大型训练数据集（10,000 多个示例）的组织。

PEFT（参数高效微调）： 仅更新一小部分参数，从而大大降低了计算要求。最常见的 PEFT 方法是 LoRA（低秩适应），它使用少 10-100 倍的计算和内存实现与完全微调相当的结果。

LoRA 微调是满足大多数 OpenClaw Skill 微调需求的推荐方法，因为：

可在云 GPU 实例上使用，无需专门的 ML 基础设施
500-5,000 个示例的训练数据集就足够了
训练只需几小时而不是几天即可完成
可以同时维护多个 LoRA 适配器，每个技能一个
LoRA 适配器可以更换，无需重新加载基本模型

提示调整： 一种更软的方法，仅训练少量的“软提示”标记。计算强度低于 LoRA，但通常会产生较小的精度增益。适用于次要风格和格式校准。

RLHF（人类反馈强化学习）： 涉及根据人类偏好评级训练奖励模型，然后用它来指导模型微调。为主观质量改进（写作风格、适当性、有用性）产生最佳结果，但需要大量的人工标记工作和 ML 专业知识。

数据准备

数据质量是微调成功的最重要的决定因素。该模型学习复制训练数据中的内容——如果训练数据不一致、不正确或质量低下，微调后的模型也会如此。

数据收集策略

生产流量采样： 如果技能已部署（可能精度较低），则对生产输入进行采样，并让领域专家为每个输入注释正确的输出。这会产生最具代表性的训练数据，因为它反映了技能在生产中看到的输入的实际分布。

**专家构建：**领域专家手动构建输入/输出对，涵盖技能应处理的所有情况。这是更高的质量，但更昂贵，并且可能会错过生产中出现的案例。

**增强：**现有示例的系统变化以扩展数据集。对于合同条款分类任务：改变条款语言、合同管辖权和行业，同时保持标签一致。

综合生成： 使用强大的基础模型根据规范生成训练示例。这是快速且可扩展的，但产生的合成数据可能无法完全代表生产条件。用作真实数据的补充，而不是替代。

数据质量要求

正确性： 每个训练示例都必须正确。百分之一的错误标签比没有例子更糟糕——模型明确地学习了错误的行为。建立一个审核流程，其中每个示例都由合格的审核员进行验证。

一致性： 相似的输入应该产生相似的输出。如果两个几乎相同的合同条款获得不同的风险评级，则模型会学习噪声而不是信号。在添加到训练集之前，建立清晰的标签指南并解决分歧。

覆盖范围： 训练集必须涵盖技能在生产中遇到的全部输入。覆盖范围的差距产生了一个模型，该模型在见过的情况下表现出色，而在未见过的情况下表现不佳。分析您的生产分布并确保培训数据反映它。

格式： 训练数据格式必须与技能在生产中看到的完全匹配 - 相同的提示模板、相同的输入结构、相同的输出格式。训练和推理之间的格式不匹配是微调结果不佳的常见原因。

数据集大小指南

任务复杂性	最少培训示例	推荐
简单分类（5-10类）	200	200 1,000+
多类分类（20-50类）	500	500 2,000+
结构化提取	300	300 1,500+
序列分类（文档级）	500	500 2,000+
复杂推理/评分	1,000	5,000+
开放式一代	1,000	5,000+

这些是可接受结果的最低限度。更多数据持续提高性能，直至收益递减。

训练/验证/测试拆分

将标记数据集分为三个分区：

训练集（70-80%）： 用于在微调期间更新模型权重
验证集（10-15%）： 用于监控训练进度并防止过度拟合
测试集 (10-15%)： 完全保留直至最终评估 - 训练期间从未使用

测试集提供了微调模型在生产数据上的执行情况的无偏估计。切勿使用测试集性能来制定训练决策，这会造成数据泄漏和夸大的准确性估计。

微调执行

环境设置

针对典型技能任务微调 LoRA 适配器需要：

GPU实例：A10G（24GB VRAM）或7B-13B参数模型的同等产品； A100 (80GB) 适用于较大型号
云提供商：AWS SageMaker、Google Vertex AI、Azure ML 或 Lambda Cloud GPU 实例
框架：Hugging Face Transformers + PEFT 库（LoRA 微调的标准）
监控：用于训练跑步跟踪的权重和偏差或 MLflow

ECOSIRE 提供预配置的微调环境作为培训咨询服务的一部分 - 您无需独立设置 ML 基础设施。

超参数配置

LoRA 微调的关键超参数：

LoRA 等级 (r)： 控制 LoRA 适配器中的参数数量。更高的排名=更多的参数=更好的容量，但更高的过拟合风险。从 r=16 开始，用 r=8 和 r=32 进行实验。

LoRA alpha： LoRA 更新的缩放因子。通常设置为 2x 等级值（如果 r=16，则 alpha=32）。

**学习率：**太高，模型发散；太低，训练速度慢。对于大多数技能微调来说，2e-4 到 5e-4 是一个合理的起始范围。

时期： 训练数据的传递次数。监控验证损失以确定最佳纪元计数 - 当验证损失停止改善时停止（提前停止）。

批量大小： 较大的批量训练速度更快，但可能会降低准确性。根据可用 GPU 内存平衡批量大小。

训练监控

在训练期间，监控：

训练损失： 应稳步下降。平台期或峰值表明存在问题。
验证损失： 应与训练损失同时减少。发散（训练损失减少，而验证损失增加）表明过度拟合——减少训练时间或正则化。
样本输出： 在整个训练过程中定期评估样本输入的模型，以验证它正在学习正确的行为。

评估和验收测试

微调产生模型。该模型是否优于基线需要针对保留的测试集进行系统评估。

按任务类型划分的标准指标：

分类：准确率、每类 F1 分数、混淆矩阵
提取：每个提取字段的精度、召回率、F1
评分/评级：平均绝对误差，与人类评级的相关性
生成：针对特定任务的评估（使用法学硕士作为量表的评判）

接受阈值： 在训练开始之前建立最低准确度阈值。微调后的模型必须超过这些阈值才能部署。常见阈值：

如果微调精度超出基线 >5 个百分点，则替换通用模型
如果微调精度超过定义的最小值（例如，测试集上的 92%），则进行部署

错误分析： 不要只看总体准确性 - 分析错误。模型经常出错的输入类型是什么？错误模式是否表明存在数据质量问题、覆盖范围差距或基本模型限制？

回归测试： 微调模型不得在基本模型处理良好的任务上出现回归。运行黄金数据集评估进行确认。

部署和迭代

部署： 经过微调的 LoRA 适配器与 OpenClaw 服务基础设施中的基本模型一起加载。对微调技能的请求将被路由到适配器增强模型。不同技能的多个适配器可以在同一服务环境中共存。

部署后监控： 应用测试和监控指南中描述的相同监控方法。应定期重新评估微调后的模型以检测漂移。

迭代触发器：

生产监控的准确性低于阈值
业务规则发生变化，要求模型学习新的行为
生产中出现了培训中未涵盖的新输入类型
微调完成，结果表明需要解决的具体差距

迭代过程：

从生产投入中收集新的培训示例，以弥补已发现的差距 2.添加到现有的训练数据集中 3.微调模型（从当前微调的权重开始，而不是基础模型）
根据扩展的测试集进行评估
如果确认改进则进行部署

成熟技能每年经历 4-8 个迭代周期，每个迭代周期都会逐步提高性能。

常见问题

针对 OpenClaw 技能微调模型的成本有多高？

LoRA 对 7B-13B 参数模型上的典型技能任务进行微调，每次训练运行的云 GPU 计算成本为 50-300 美元，具体取决于数据集大小和模型大小。数据准备（标记）是较大的成本 - 来自领域专家的 1,000 个示例的标记良好的数据集通常需要花费 2,000 至 8,000 美元的专家时间。 ECOSIRE 的培训咨询服务涵盖技术执行和数据准备方法。

我们可以对 OpenAI 或 Anthropic 的模型进行微调吗？

OpenAI 通过其微调 API 支持 GPT-4o mini 和 GPT-3.5 Turbo 的微调。 Anthropic 目前不提供对 Claude 模型的公开微调。 Google 通过 Vertex AI 为 Gemini 模型提供微调。对于需要微调并且想要使用前沿模型的任务，OpenAI 的微调 API 是最容易访问的路径。对于必须进行微调且数据隐私需要本地处理的任务，具有 LoRA 微调功能的开源模型（Llama、Mistral、Qwen）是合适的。

随着基础模型的变化，我们如何维护微调模型？

当基础模型更新时（新版本的 Llama、GPT-4o 等），在旧版本上训练的 LoRA 适配器通常需要在新版本上重新训练。这是一个重要的维护考虑因素——在主要模型版本发布时计划重新训练周期。 ECOSIRE 的维护保留包括模型再培训，作为为具有微调技能的客户提供的承保服务。

什么是小样本提示以及它何时替代微调？

Few-shot 提示直接在提示中提供示例输入/输出对，向模型显示正确的响应，而无需修改模型权重。当您有 5-10 个高质量示例、输出格式一致并且任务在模型的一般能力范围内时，它效果很好。当您需要数十个示例（上下文窗口限制）、需要在大容量下保持性能一致（上下文示例增加延迟和成本）或者当任务需要模型不具备的专业知识时，它就会崩溃。

我们如何知道性能不佳是提示问题还是模型问题？

系统消融测试：保持一个变量不变，同时改变另一个变量。使用基本模型测试多个提示公式。如果最佳提示的性能仍然低于阈值，则问题出在模型的基础功能上——需要进行微调或切换到功能更强大的基础模型。如果提示变体产生显着不同的结果，则问题出在提示质量上——在微调之前投资于提示工程。

我们的团队需要机器学习工程师来实施微调吗？

如果您与 ECOSIRE 合作则不然。微调是一门专门学科，需要机器学习工程专业知识来进行设置、执行和评估。 ECOSIRE 的培训咨询服务可以提供此类专业知识，而无需您聘请 ML 工程师。您的团队需要提供数据标记和评估的领域专业知识——技术实施由 ECOSIRE 负责。

后续步骤

微调 OpenClaw 技能是实现特定领域任务最高精度的途径，但它需要仔细的数据准备、技术执行和持续维护才能提供持久的价值。 ECOSIRE 的培训和咨询团队管理整个微调生命周期，因此您的团队专注于只有他们才能提供的领域专业知识。

探索 OpenClaw 培训和咨询服务讨论您的技能准确性要求并为您的特定用例设计微调路线图。

训练和微调 OpenClaw 技能

本指南涵盖了训练和微调 OpenClaw 技能的完整工作流程：从识别何时需要微调，到数据准备、微调执行、评估和持续迭代。

要点

与通用基础模型相比，微调将特定领域任务的准确性提高了 15-40%

在投资微调之前应该先用尽快速工程和少量学习

大多数业务任务的微调需要 500-5,000 个高质量的训练示例

数据质量比数量更重要——500 个优秀示例胜过 5,000 个平庸示例

在将微调模型部署到生产之前，需要针对保留的测试集进行评估

当业务规则发生变化或检测到模型漂移时，微调模型需要重新训练

LoRA 等 PEFT（参数高效微调）方法无需大量计算即可进行微调

4-8 周的迭代周期可保持模型性能随着时间的推移不断提高

何时需要（或不需要）微调

微调并不是提高智能体准确性的第一手段——它是用尽更简单的方法后的最后手段。投资在特定情况下是合理的。

在以下情况下进行微调是合理的：

该任务需要不适合上下文的内化知识（广泛的监管规则手册、大型产品分类层次结构）
输出格式非常具体，上下文中的示例尚未实现一致的合规性
该任务使用通用模型无法正确处理的专业术语
延迟约束禁止大的上下文窗口（微调模型速度更快，精度相同）
在用尽即时工程和 RAG 方法后，精度仍低于阈值

了解 OpenClaw 技能架构

在深入进行微调之前，了解技能如何发挥作用可以塑造培训方法。

技能是已配置的代理功能，具有四个组件：

**系统提示：**定义技能的角色、任务、输出格式和限制的说明。这是非微调改进的主要杠杆。

输入架构： 定义技能接受的结构化输入 - 它期望哪些数据字段、它们的类型以及需要哪些数据字段。

模型配置： 用于此技能的基础模型和推理参数（温度、最大令牌、top-p）。不同的任务受益于不同的设置。

输出架构： 定义结构化输出格式。具有强大输出模式的技能比具有自由格式输出的技能产生更一致、可解析的结果。

微调针对模型组件 - 调整模型权重以更好地执行您的特定技能任务和领域。提示优化针对的是系统提示。两者是互补的。

微调方法

LoRA 微调是满足大多数 OpenClaw Skill 微调需求的推荐方法，因为：

可在云 GPU 实例上使用，无需专门的 ML 基础设施
500-5,000 个示例的训练数据集就足够了
训练只需几小时而不是几天即可完成
可以同时维护多个 LoRA 适配器，每个技能一个
LoRA 适配器可以更换，无需重新加载基本模型

提示调整： 一种更软的方法，仅训练少量的“软提示”标记。计算强度低于 LoRA，但通常会产生较小的精度增益。适用于次要风格和格式校准。

数据准备

数据质量是微调成功的最重要的决定因素。该模型学习复制训练数据中的内容——如果训练数据不一致、不正确或质量低下，微调后的模型也会如此。

数据收集策略

**专家构建：**领域专家手动构建输入/输出对，涵盖技能应处理的所有情况。这是更高的质量，但更昂贵，并且可能会错过生产中出现的案例。

**增强：**现有示例的系统变化以扩展数据集。对于合同条款分类任务：改变条款语言、合同管辖权和行业，同时保持标签一致。

数据质量要求

数据集大小指南

任务复杂性	最少培训示例	推荐
简单分类（5-10类）	200	200 1,000+
多类分类（20-50类）	500	500 2,000+
结构化提取	300	300 1,500+
序列分类（文档级）	500	500 2,000+
复杂推理/评分	1,000	5,000+
开放式一代	1,000	5,000+

这些是可接受结果的最低限度。更多数据持续提高性能，直至收益递减。

训练/验证/测试拆分

将标记数据集分为三个分区：

训练集（70-80%）： 用于在微调期间更新模型权重
验证集（10-15%）： 用于监控训练进度并防止过度拟合
测试集 (10-15%)： 完全保留直至最终评估 - 训练期间从未使用

测试集提供了微调模型在生产数据上的执行情况的无偏估计。切勿使用测试集性能来制定训练决策，这会造成数据泄漏和夸大的准确性估计。

微调执行

环境设置

针对典型技能任务微调 LoRA 适配器需要：

GPU实例：A10G（24GB VRAM）或7B-13B参数模型的同等产品； A100 (80GB) 适用于较大型号
云提供商：AWS SageMaker、Google Vertex AI、Azure ML 或 Lambda Cloud GPU 实例
框架：Hugging Face Transformers + PEFT 库（LoRA 微调的标准）
监控：用于训练跑步跟踪的权重和偏差或 MLflow

ECOSIRE 提供预配置的微调环境作为培训咨询服务的一部分 - 您无需独立设置 ML 基础设施。

超参数配置

LoRA 微调的关键超参数：

LoRA 等级 (r)： 控制 LoRA 适配器中的参数数量。更高的排名=更多的参数=更好的容量，但更高的过拟合风险。从 r=16 开始，用 r=8 和 r=32 进行实验。

LoRA alpha： LoRA 更新的缩放因子。通常设置为 2x 等级值（如果 r=16，则 alpha=32）。

**学习率：**太高，模型发散；太低，训练速度慢。对于大多数技能微调来说，2e-4 到 5e-4 是一个合理的起始范围。

时期： 训练数据的传递次数。监控验证损失以确定最佳纪元计数 - 当验证损失停止改善时停止（提前停止）。

批量大小： 较大的批量训练速度更快，但可能会降低准确性。根据可用 GPU 内存平衡批量大小。

训练监控

在训练期间，监控：

训练损失： 应稳步下降。平台期或峰值表明存在问题。
验证损失： 应与训练损失同时减少。发散（训练损失减少，而验证损失增加）表明过度拟合——减少训练时间或正则化。
样本输出： 在整个训练过程中定期评估样本输入的模型，以验证它正在学习正确的行为。

评估和验收测试

微调产生模型。该模型是否优于基线需要针对保留的测试集进行系统评估。

按任务类型划分的标准指标：

分类：准确率、每类 F1 分数、混淆矩阵
提取：每个提取字段的精度、召回率、F1
评分/评级：平均绝对误差，与人类评级的相关性
生成：针对特定任务的评估（使用法学硕士作为量表的评判）

接受阈值： 在训练开始之前建立最低准确度阈值。微调后的模型必须超过这些阈值才能部署。常见阈值：

如果微调精度超出基线 >5 个百分点，则替换通用模型
如果微调精度超过定义的最小值（例如，测试集上的 92%），则进行部署

回归测试： 微调模型不得在基本模型处理良好的任务上出现回归。运行黄金数据集评估进行确认。

部署和迭代

部署后监控： 应用测试和监控指南中描述的相同监控方法。应定期重新评估微调后的模型以检测漂移。

迭代触发器：

生产监控的准确性低于阈值
业务规则发生变化，要求模型学习新的行为
生产中出现了培训中未涵盖的新输入类型
微调完成，结果表明需要解决的具体差距

迭代过程：

从生产投入中收集新的培训示例，以弥补已发现的差距 2.添加到现有的训练数据集中 3.微调模型（从当前微调的权重开始，而不是基础模型）
根据扩展的测试集进行评估
如果确认改进则进行部署

成熟技能每年经历 4-8 个迭代周期，每个迭代周期都会逐步提高性能。

常见问题

针对 OpenClaw 技能微调模型的成本有多高？

我们可以对 OpenAI 或 Anthropic 的模型进行微调吗？

随着基础模型的变化，我们如何维护微调模型？

什么是小样本提示以及它何时替代微调？

我们如何知道性能不佳是提示问题还是模型问题？

我们的团队需要机器学习工程师来实施微调吗？

后续步骤

探索 OpenClaw 培训和咨询服务讨论您的技能准确性要求并为您的特定用例设计微调路线图。

训练和微调 OpenClaw 技能

训练和微调 OpenClaw 技能

何时需要（或不需要）微调

了解 OpenClaw 技能架构

微调方法

数据准备

数据收集策略

数据质量要求

数据集大小指南

训练/验证/测试拆分

微调执行

环境设置

超参数配置

训练监控

评估和验收测试

部署和迭代

常见问题

后续步骤

构建智能 AI 代理

相关文章

Odoo 19 HR：技能矩阵、职业规划、绩效周期

OpenClaw 大规模成本优化和代币效率

OpenClaw 安装快速入门 2026：15 分钟内安装第一个代理

训练和微调 OpenClaw 技能

训练和微调 OpenClaw 技能

何时需要（或不需要）微调

了解 OpenClaw 技能架构

微调方法

数据准备

数据收集策略

数据质量要求

数据集大小指南

训练/验证/测试拆分

微调执行

环境设置

超参数配置

训练监控

评估和验收测试

部署和迭代

常见问题

后续步骤

构建智能 AI 代理

相关文章

Odoo 19 HR：技能矩阵、职业规划、绩效周期

OpenClaw 大规模成本优化和代币效率

OpenClaw 安装快速入门 2026：15 分钟内安装第一个代理