成本优化:云基础设施支出减少 40%
**Flexera 的 2025 年云状况报告发现,组织将 30-40% 的云支出浪费在闲置、规模过大或未充分利用的资源上。**对于每月在 AWS 上支出 10,000 美元的企业来说,每月有 3,000-4,000 美元直接浪费。云成本优化并不是偷工减料,而是使支出与实际使用情况保持一致,选择正确的定价模型,并消除没有价值的资源。
要点
- 通过将实例类型与实际 CPU 和内存利用率模式相匹配,仅调整大小通常可以节省 20-30%
- 预留实例和节省计划可将可预测工作负载的计算成本降低 30-60%,承诺 1-3 年
- 存储分层可以通过自动将不经常访问的数据移动到更便宜的层来将存储成本降低 70%
- 数据传输成本是云账单中隐藏的惊喜 - 减少跨区域和互联网出站的架构决策可显着节省成本
云资金去向
了解云账单的构成是优化的第一步。大多数组织的支出遵循可预测的模式。
| 类别 | 典型分享 | 优化潜力 |
|---|---|---|
| 计算(EC2、Lambda、ECS) | 40-50% | 高——大小合适、预留实例、现货 |
| 存储(S3、EBS、RDS 存储) | 15-25% | 高——分层、生命周期策略、清理 |
| 数据库(RDS、DynamoDB、ElastiCache) | 10-20% | 中型——大小合适、预留实例 |
| 数据传输(出口、区域间) | 5-15% | Medium——CDN、架构优化 |
| 其他(负载均衡器、DNS、监控) | 5-10% | 低——主要是固定成本 |
成本分配标签
在优化之前,您需要可见性。用以下标记标记每个资源:
- 环境 -- 制作、演出、开发
- 团队 -- 哪个团队拥有资源
- 应用程序 -- 哪个应用程序或服务使用它
- 成本中心 -- 用于退款或返还报告
如果没有标签,您就无法回答诸如“生产结账服务费用是多少?”之类的基本问题。或“哪个团队的开发环境最昂贵?”
调整计算资源大小
调整规模意味着将您的实例类型与实际工作负载要求相匹配。大多数实例都过大,因为工程师为峰值负载进行了配置,并且从不重新考虑选择。
如何调整大小
- 收集利用率数据 -- 监控 CPU、内存、网络和磁盘 I/O 至少 2 周(最好是 30 天以捕获每周模式)
- 识别浪费 - CPU 利用率始终低于 20% 且内存利用率始终低于 40% 的实例规模过大
- 选择正确的系列 -- 针对 CPU 密集型的计算优化型(c 系列)、针对缓存/数据库的内存优化型(R 系列)、针对平衡工作负载的通用型(m 系列)
- 逐步缩小规模——一次缩小一个规模并监控性能影响
按利用率调整大小的建议
| 平均 CPU | 平均内存 | 推荐 | 预期节省 |
|---|---|---|---|
| 低于 10% | 低于 30% | 缩小 2 个尺寸或合并 | 60-75% |
| 10-30% | 30-50% | 缩小 1 号 | 30-50% |
| 30-60% | 50-70% | 目前尺寸合适 | 0% |
| 60-80% | 70-85% | 考虑扩大空间以增加空间 | -20%(稳定性成本增加) |
| 超过 80% | 超过 85% | 立即扩容或水平缩放 | 如果不解决就会有停电风险 |
Graviton (ARM) 实例
与同等 x86 实例相比,AWS Graviton 实例(t4g、m7g、c7g、r7g)成本降低 20%,性能提高高达 40%。大多数 Node.js、Python 和容器化工作负载无需修改即可在 ARM 上运行。在 Graviton 实例上测试您的应用程序 - 20% 的成本节省在规模上显着增加。
预留实例和节省计划
按需定价是使用云计算最昂贵的方式。对于可预测的工作负载,基于承诺的定价提供 30-60% 的折扣。
定价模型比较
| 型号 | 折扣 | 承诺 | 灵活性 | 最适合 |
|---|---|---|---|---|
| 点播 | 0%(基线) | 无 | 完全的灵活性 | 临时工作负载、测试 |
| 储蓄计划(计算) | 30-50% | 1 或 3 年 | 任何实例类型、大小、区域、操作系统 | 一般计算承诺 |
| 储蓄计划 (EC2) | 35-55% | 1 或 3 年 | 特定实例家族,灵活尺寸 | 已知的工作负载系列 |
| 预留实例 | 30-60% | 1 或 3 年 | 特定实例类型,灵活性较差 | 稳定、可预测的数据库 |
| 现货实例 | 60-90% | 无(可中断) | 最高的节省,最低的可靠性 | 批处理、CI/CD、开发/测试 |
储蓄计划策略
储蓄计划是大多数组织的最佳默认选择。它们提供比预留实例更大的折扣和更大的灵活性。
实施方式:
- 分析基准使用情况 -- 确定 24/7 运行的最低计算支出(生产服务器、数据库)。这是您的承诺楼层。
- 从 1 年期承诺开始 -- 风险低于 3 年期,但仍可节省大量资金 (30-40%)
- 使用计算节省计划以获得灵活性 - 它们适用于实例系列、大小、区域甚至服务(EC2、Fargate、Lambda)
- 通过承诺覆盖基线的 60-70%——为优化和更改留出空间
- 每季度审查——随着工作负载的变化调整覆盖范围
非关键工作负载的 Spot 实例
Spot 实例以 60-90% 的折扣使用备用 AWS 容量,但可以在提前 2 分钟通知的情况下中断。它们非常适合:
- CI/CD 管道 -- 构建能够容忍中断并自动重新启动的服务器
- 批处理 -- 检查进度并恢复的数据处理作业
- 开发环境 -- 中断时可以重新创建的开发服务器
- 负载测试 -- 测试在负载测试期间临时运行的代理
请勿将 Spot 用于: 生产 Web 服务器(除非通过按需回退进行自动扩展)、数据库或任何不能容忍中断的工作负载。
存储成本优化
由于数据很少被删除,存储成本悄然累积。主动优化存储层和生命周期策略可以将存储支出削减 50-70%。
S3 存储类
| 存储类 | 成本(每 GB/月) | 访问成本 | 检索时间 | 使用案例 |
|---|---|---|---|---|
| S3标准 | 0.023 美元 | 低 | 即时 | 经常访问的数据 |
| S3 智能分层 | $0.023(自动分层) | 无 | 即时 | 未知的访问模式 |
| S3 标准-IA | 0.0125 美元 | 根据要求更高 | 即时 | 每月访问模式 |
| S3 冰川即时 | 0.004 美元 | 根据要求更高 | 即时 | 按季度访问 |
| S3 冰川灵活 | 0.0036 美元 | 每次检索 | 分钟到小时 | 年度访问、合规 |
| S3 冰川深度存档 | 0.00099 美元 | 每次检索 | 12-48 小时 | 长期合规档案 |
S3 生命周期策略
使用生命周期规则自动进行存储分层:
- 30 天后 -- 转移到 Standard-IA(很少访问最近的数据)
- 90 天后 -- 转移到 Glacier Instant Retrieval(合规性、偶尔访问)
- 365 天后 -- 移至 Glacier Deep Archive(长期保留)
- 7年后 -- 删除(如果保留政策不再要求)
EBS 卷优化
EBS 卷是一种常见的浪费源:
- 未附加卷 -- 实例终止后保留的卷。每月搜索并删除未附加卷或为其创建快照。
- 过度配置 IOPS -- gp3 卷包括 3,000 IOPS 基准。超过 10,000 IOPS 的预配置 IOPS (io2) 卷的成本要高得多。大多数工作负载在 gp3 上表现良好。
- 快照清理 -- 旧的 EBS 快照累积。删除早于恢复要求的快照。
降低数据传输成本
数据传输是云账单上最难以预测的项目。了解流量模式可以防止意外成本。
数据传输定价概述
| 传输类型 | 成本 |
|---|---|
| 数据输入(互联网到 AWS) | 免费 |
| 数据输出(AWS 到互联网) | 0.09 美元/GB(前 10TB/月) |
| 跨区转运 | 0.01-0.02 美元/GB |
| 同地域、跨AZ | 0.01 美元/GB |
| 相同的AZ | 免费 |
| CloudFront 到互联网 | $0.085/GB(低于直接 EC2 出口) |
降低传输成本的架构决策
- 对静态资产使用 CDN -- CloudFront 出口比直接 EC2 出口便宜,并且缓存减少了总传输量
- 将服务保持在同一区域和可用区 -- 对于繁琐的微服务,跨可用区流量会快速增加
- 压缩 API 响应 -- Brotli 压缩将 JSON 负载减少 70-85%,直接降低数据传输成本
- 使用 VPC 终端节点——无需遍历公共互联网即可访问 S3 和其他 AWS 服务(网关终端节点免费)
- 最小化跨区域复制——仅复制灾难恢复和延迟要求所需的内容
CDN 成本优化
CloudFront 定价随着数量增加和承诺使用而降低。对于高流量站点,可协商 CloudFront Security Savings Bundle(1 年承诺最高可享受 30% 的折扣)。请参阅我们的缓存策略指南 了解 CDN 缓存最佳实践。
数据库成本优化
数据库实例通常是云账单上最昂贵的单项项目。
RDS 优化
- 为生产数据库使用预留实例 -- 1 年 RI 节省 30-40%,3 年 RI 节省 55-60%
- 根据 CloudWatch 指标调整大小 -- 如果 CPU 平均利用率为 15%,内存利用率为 40%,则缩小规模
- 使用 Aurora Serverless v2 处理可变工作负载 - 自动从 0.5 ACU 扩展到 128 ACU,只需为使用的容量付费
- 评估托管与自托管 -- RDS 的成本比 EC2 上的自管理 PostgreSQL 高 30-50%,但节省了修补、备份和故障转移的工程时间
- 在夜间停止开发数据库 -- 使用 Lambda 函数在工作时间之外停止 RDS 实例(对于朝九晚五的计划可节省 65%)
ElastiCache 优化
- 使用预留节点用于生产 Redis/Valkey 集群
- 基于内存利用率的适当大小 -- 内存利用率为 30% 时的缓存节点过大
- 使用无服务器 ElastiCache 处理可变工作负载
有关减少对较大实例的需求的数据库性能优化,请参阅我们的数据库查询优化指南。
成本监控和治理
预算和提醒
将 AWS 预算设置为预期每月支出的 80%、100% 和 120%,并发出警报。为每个环境(生产、暂存、开发)和每个团队创建单独的预算。提醒负责的团队,而不仅仅是财务部门。
定期成本审查
| 节奏 | 回顾焦点 | 与会者 |
|---|---|---|
| 每日 | 自动异常检测(AWS 成本异常检测) | 自动向 Slack 发出警报 |
| 每周 | 前 5 大成本变化、新增资源、闲置资源 | 工程主管 |
| 每月 | 完整的成本明细、储蓄计划覆盖范围、合理规模建议 | 工程+金融 |
| 季刊 | 成本效率、承诺更新的架构审查 | 工程领导 |
成本可见性工具
| 工具 | 类型 | 最适合 |
|---|---|---|
| AWS 成本管理器 | 本地 | 基本成本分析、日/月趋势 |
| AWS 计算优化器 | 本地 | 根据利用率数据提出合理规模建议 |
| AWS 值得信赖的顾问 | 本地 | 资源闲置、实例未充分利用 |
| 基础设施成本 | 开源 | 部署前进行基础设施即代码成本估算 |
| 华帝 | 商业 | 多云成本管理、团队级报告 |
| 云健康 | 商业 | 企业成本治理、预留实例管理 |
常见问题
将云成本降低 20% 的最快方法是什么?
调整计算实例的大小并删除未使用的资源(未附加的 EBS 卷、旧快照、空闲负载均衡器、被遗忘的开发环境)。通过解决最明显的浪费,大多数组织可以在一个下午实现 20% 的节省。为了持续节省费用,请为您的基准工作负载实施自动扩展和购买节省计划。
我应该使用无服务器 (Lambda) 还是容器来省钱?
对于每月调用次数少于 100 万次的零星事件驱动工作负载,无服务器 (Lambda) 更便宜。对于持续运行的持续工作负载来说,容器(ECS、EKS)更便宜。盈亏平衡点各不相同,但运行时间超过 40-50% 的 Lambda 函数通常比同等容器的成本更高。在做出决定之前分析您的调用模式。
如何防止云成本意外?
将预算警报设置为预期支出的 80%。启用 AWS 成本异常检测以进行自动峰值检测。将基础设施即代码(Terraform、CloudFormation)与 Infracost 结合使用,在部署前估算成本。要求对所有资源添加成本标签,以便未标记的资源触发警报。使用 IAM 策略阻止在开发环境中创建超大实例。
多云比单云更贵还是更便宜?
由于提供商之间的数据传输、重复的管理工具和工程复杂性,多云的成本通常要高 20-40%。仅当业务需求需要时才使用多云(供应商谈判杠杆、监管数据驻留、特定服务可用性)。对于大多数每月云支出低于 50,000 美元的企业来说,具有良好架构的单一云更具成本效益。
对于成长中的初创公司,我如何进行成本优化?
重点关注三件事:(1) 使用节省计划作为基准(始终运行的最小值),(2) 自动扩展基准以上的所有内容,以及 (3) 在工作时间之外关闭非生产环境。不要过早过度优化——花在成本优化上的工程时间会产生机会成本。一旦您每月的云账单超过 5,000 美元,专门的成本优化工作就开始收回成本。
下一步是什么
从成本审核开始:启用 Cost Explorer、标记您的资源并确定账单上的前 10 个行项目。调整最明显超大实例的大小,删除未使用的资源,并设置预算警报。然后评估基准计算工作负载的节省计划。
有关完整的性能工程背景,请参阅我们关于扩展您的业务平台 的支柱指南。为了确保成本优化不会影响性能,请阅读我们的监控和可观察性指南 以跟踪更改的影响。
ECOSIRE 帮助企业优化在 AWS 上运行 Odoo ERP 的平台和自定义应用程序的云基础设施成本。 联系我们的 DevOps 团队 以获取云成本审核和优化路线图。
由 ECOSIRE 发布 — 通过 Odoo ERP、Shopify 电子商务 和 OpenClaw AI 等人工智能驱动的解决方案帮助企业扩展规模。
作者
ECOSIRE TeamTechnical Writing
The ECOSIRE technical writing team covers Odoo ERP, Shopify eCommerce, AI agents, Power BI analytics, GoHighLevel automation, and enterprise software best practices. Our guides help businesses make informed technology decisions.
相关文章
适用于 Web 应用程序的 AWS EC2 部署指南
完整的 AWS EC2 部署指南:实例选择、安全组、Node.js 部署、Nginx 反向代理、SSL、自动扩展、CloudWatch 监控和成本优化。
ERP 云托管:AWS、Azure、Google Cloud
对 2026 年 ERP 托管的 AWS、Azure 和 Google Cloud 进行详细比较。涵盖性能、成本、区域可用性、托管服务和特定于 ERP 的建议。
2026 年云与本地 ERP:权威指南
2026 年云与本地 ERP:总成本分析、安全性比较、可扩展性、合规性以及适合您业务的正确部署模型。