告别孤立快照:使用 Serverless、Terraform 和 AWS EventBridge 自动清理!
随着时间的推移,aws 账户可能会积累不再需要的资源,但会继续产生成本。一个常见的例子是删除卷后留下的孤立 ebs 快照。手动管理这些快照可能非常繁琐且成本高昂。
本指南介绍如何在 aws lambda 函数中使用 python (boto3) 和 terraform 自动清理孤立的 ebs 快照,然后根据计划或事件使用 aws eventbridge 触发清理。
最终,您将拥有完整的无服务器解决方案,以保持 aws 环境清洁且经济高效。
第 1 步:安装 aws cli 和 terraform
首先,让我们确保安装了必要的工具。
aws cli
aws cli 允许通过命令行访问 aws 服务。根据您的操作系统安装:
macos:brew install awscli
windows: aws cli 安装程序
linux: 使用包管理器(例如,对于 ubuntu 为 sudo apt install awscli)。
验证安装:
aws --version
地形
terraform 是一种流行的基础设施即代码 (iac) 工具,用于定义和管理 aws 资源。
macos:brew install terraform
windows: terraform 安装程序
linux: 下载二进制文件并将其移动到 /usr/local/bin。
验证安装:
terraform -version
步骤 2:配置 aws 访问
使用访问密钥配置您的 aws cli,以允许 terraform 和 lambda 使用 aws 服务进行身份验证。
从您的 aws 账户(aws iam 控制台)获取访问密钥。
配置 aws cli:
aws configure
按照提示输入您的访问密钥、秘密访问密钥、默认区域(例如 us-east-1)和输出格式(例如 json)。
第 3 步:用于孤立快照清理的 python 代码
此处提供了创建 lambda 函数的分步说明。
此 lambda 函数使用 aws 的 python sdk boto3 来列出所有 ebs 快照,检查其关联的卷状态,并删除卷不再可用的快照。完整的功能代码如下:
import boto3import logginglogger = logging.getlogger()logger.setlevel(logging.info)def lambda_handler(event, context): ec2_cli = boto3.client("ec2") response = ec2_cli.describe_snapshots(ownerids=["self"], dryrun=false) snapshot_id = [] for each_snapshot in response["snapshots"]: try: volume_stat = ec2_cli.describe_volume_status( volumeids=[each_snapshot["volumeid"]], dryrun=false ) except ec2_cli.exceptions.clienterror as e: if e.response["error"]["code"] == "invalidvolume.notfound": snapshot_id.append(each_snapshot["snapshotid"]) else: raise e if snapshot_id: for each_snap in snapshot_id: try: ec2_cli.delete_snapshot(snapshotid=each_snap) logger.info(f"deleted snapshotid {each_snap}") except ec2_cli.exceptions.clienterror as e: return { "statuscode": 500, "body": f"error deleting snapshot {each_snap}: {e}", } return {"statuscode": 200}
第 4 步:无服务器基础设施的 terraform 配置
使用 terraform,我们将创建 lambda 函数、iam 角色和策略以将此脚本部署到 aws。此外,我们将设置一个 eventbridge 规则来定期触发 lambda。
terraform 设置和提供程序配置
本部分配置 terraform,包括在 s3 中设置远程状态管理。
注意: 根据 terraform -version 输出更改 required_version 值。
terraform { required_version = ">=1.5.6" required_providers { aws = { source = "hashicorp/aws" version = "~> 5.72.0" } } backend "s3" { bucket = "terraform-state-files-0110" key = "delete-orphan-snapshots/terraform.tfstate" region = "us-east-1" dynamodb_table = "tf_state_file_locking" }}provider "aws" { region = "us-east-1"}
lambda 的 iam 角色和策略
此 iam 配置为 lambda 设置访问 ec2 和 cloudwatch 的权限,从而启用快照删除和日志记录。
resource "aws_iam_role" "lambda_role" { name = "terraform_orphan_snapshots_delete_role" assume_role_policy = <<eof { "version": "2012-10-17", "statement": [ { "action": "sts:assumerole", "principal": { "service": "lambda.amazonaws.com" }, "effect": "allow" } ] }eof}resource "aws_iam_policy" "iam_policy_for_lambda" { name = "terraform_orphan_snapshots_delete_policy" policy = <<eof { "version": "2012-10-17", "statement": [ { "effect": "allow", "action": [ "logs:createloggroup", "logs:createlogstream", "logs:putlogevents" ], "resource": "arn:aws:logs:*:*:*" }, { "effect": "allow", "action": [ "ec2:describevolumestatus", "ec2:describesnapshots", "ec2:deletesnapshot" ], "resource": "*" } ] }eof}resource "aws_iam_role_policy_attachment" "attach_iam_policy_to_iam_role" { role = aws_iam_role.lambda_role.name policy_arn = aws_iam_policy.iam_policy_for_lambda.arn}
打包和部署 lambda 函数
在这里,我们打包 python 代码并将其部署为 lambda 函数。
data "archive_file" "lambda_zip" { type = "zip" source_file = "${path.module}/python/orphan-snapshots-delete.py" output_path = "${path.module}/python/orphan-snapshots-delete.zip"}resource "aws_lambda_function" "lambda_function" { filename = data.archive_file.lambda_zip.output_path function_name = "orphan-snapshots-delete" role = aws_iam_role.lambda_role.arn handler = "orphan-snapshots-delete.lambda_handler" runtime = "python3.12" timeout = 30}
lambda 调用的 eventbridge 规则
aws eventbridge 允许您为 lambda 函数创建计划触发器或基于事件的触发器。在这里,我们将配置 eventbridge 以按计划(例如每 24 小时)调用我们的 lambda 函数。您可以在此处的 aws 文档中了解有关 eventbridge 和计划事件的更多信息。
resource "aws_cloudwatch_event_rule" "schedule_rule" { name = "orphan-snapshots-schedule-rule" description = "trigger lambda every day to delete orphaned snapshots" schedule_expression = "rate(24 hours)"}resource "aws_cloudwatch_event_target" "target" { rule = aws_cloudwatch_event_rule.schedule_rule.name arn = aws_lambda_function.lambda_function.arn}resource "aws_lambda_permission" "allow_eventbridge" { statement_id = "allowexecutionfromeventbridge" action = "lambda:invokefunction" function_name = aws_lambda_function.lambda_function.function_name principal = "events.amazonaws.com" source_arn = aws_cloudwatch_event_rule.schedule_rule.arn}
第 5 步:应用 terraform 配置
定义基础设施后,初始化并应用 terraform 配置:
terraform initterraform apply
第 6 步:测试和监控 lambda 函数
验证解决方案是否有效:
- 手动触发事件(可选):对于初始测试,从 aws lambda 控制台手动触发 lambda 函数。
- 监控 cloudwatch 日志: lambda 函数将日志写入 cloudwatch,您可以在其中查看条目以验证快照删除。
- 根据需要调整计划:修改schedule_expression以设置快照清理的自定义频率。
总结
通过结合 python (boto3)、terraform 和 aws eventbridge,我们创建了一个完全自动化、无服务器的解决方案来清理孤立的 ebs 快照。这种设置不仅降低了云成本,还促进了整洁、高效的 aws 环境。通过计划调用,您可以放心,孤立资源将始终被删除。
在您自己的 aws 账户中尝试此解决方案,体验云资源管理自动化的优势!