PHP前端开发

告别孤立快照:使用 Serverless、Terraform 和 AWS EventBridge 自动清理!

百变鹏仔 4天前 #Python
文章标签 快照

随着时间的推移,aws 账户可能会积累不再需要的资源,但会继续产生成本。一个常见的例子是删除卷后留下的孤立 ebs 快照。手动管理这些快照可能非常繁琐且成本高昂。

本指南介绍如何在 aws lambda 函数中使用 python (boto3) 和 terraform 自动清理孤立的 ebs 快照,然后根据计划或事件使用 aws eventbridge 触发清理。

最终,您将拥有完整的无服务器解决方案,以保持 aws 环境清洁且经济高效。

第 1 步:安装 aws cli 和 terraform

首先,让我们确保安装了必要的工具。

aws cli
aws cli 允许通过命令行访问 aws 服务。根据您的操作系统安装:

macos:brew install awscli
windows: aws cli 安装程序
linux: 使用包管理器(例如,对于 ubuntu 为 sudo apt install awscli)。
验证安装:

aws --version

地形
terraform 是一种流行的基础设施即代码 (iac) 工具,用于定义和管理 aws 资源。

macos:brew install terraform
windows: terraform 安装程序
linux: 下载二进制文件并将其移动到 /usr/local/bin。

验证安装:

terraform -version

步骤 2:配置 aws 访问

使用访问密钥配置您的 aws cli,以允许 terraform 和 lambda 使用 aws 服务进行身份验证。

从您的 aws 账户(aws iam 控制台)获取访问密钥
配置 aws cli:

aws configure

按照提示输入您的访问密钥、秘密访问密钥、默认区域(例如 us-east-1)和输出格式(例如 json)。

第 3 步:用于孤立快照清理的 python 代码

此处提供了创建 lambda 函数的分步说明。

此 lambda 函数使用 aws 的 python sdk boto3 来列出所有 ebs 快照,检查其关联的卷状态,并删除卷不再可用的快照。完整的功能代码如下:

import boto3import logginglogger = logging.getlogger()logger.setlevel(logging.info)def lambda_handler(event, context):    ec2_cli = boto3.client("ec2")    response = ec2_cli.describe_snapshots(ownerids=["self"], dryrun=false)    snapshot_id = []    for each_snapshot in response["snapshots"]:        try:            volume_stat = ec2_cli.describe_volume_status(                volumeids=[each_snapshot["volumeid"]], dryrun=false            )        except ec2_cli.exceptions.clienterror as e:            if e.response["error"]["code"] == "invalidvolume.notfound":                snapshot_id.append(each_snapshot["snapshotid"])            else:                raise e    if snapshot_id:        for each_snap in snapshot_id:            try:                ec2_cli.delete_snapshot(snapshotid=each_snap)                logger.info(f"deleted snapshotid {each_snap}")            except ec2_cli.exceptions.clienterror as e:                return {                    "statuscode": 500,                    "body": f"error deleting snapshot {each_snap}: {e}",                }    return {"statuscode": 200}

第 4 步:无服务器基础设施的 terraform 配置

使用 terraform,我们将创建 lambda 函数、iam 角色和策略以将此脚本部署到 aws。此外,我们将设置一个 eventbridge 规则来定期触发 lambda。

terraform 设置和提供程序配置
本部分配置 terraform,包括在 s3 中设置远程状态管理。
注意: 根据 terraform -version 输出更改 required_version 值。

terraform {  required_version = ">=1.5.6"  required_providers {    aws = {      source  = "hashicorp/aws"      version = "~> 5.72.0"    }  }  backend "s3" {    bucket         = "terraform-state-files-0110"    key            = "delete-orphan-snapshots/terraform.tfstate"    region         = "us-east-1"    dynamodb_table = "tf_state_file_locking"  }}provider "aws" {  region = "us-east-1"}

lambda 的 iam 角色和策略
此 iam 配置为 lambda 设置访问 ec2 和 cloudwatch 的权限,从而启用快照删除和日志记录。

resource "aws_iam_role" "lambda_role" {  name               = "terraform_orphan_snapshots_delete_role"  assume_role_policy = <<eof    {      "version": "2012-10-17",      "statement": [        {          "action": "sts:assumerole",          "principal": { "service": "lambda.amazonaws.com" },          "effect": "allow"        }      ]    }eof}resource "aws_iam_policy" "iam_policy_for_lambda" {  name   = "terraform_orphan_snapshots_delete_policy"  policy = <<eof    {      "version": "2012-10-17",      "statement": [        {          "effect": "allow",          "action": [              "logs:createloggroup",              "logs:createlogstream",              "logs:putlogevents"          ],          "resource": "arn:aws:logs:*:*:*"        },        {          "effect": "allow",          "action": [              "ec2:describevolumestatus",              "ec2:describesnapshots",              "ec2:deletesnapshot"          ],          "resource": "*"        }      ]    }eof}resource "aws_iam_role_policy_attachment" "attach_iam_policy_to_iam_role" {  role       = aws_iam_role.lambda_role.name  policy_arn = aws_iam_policy.iam_policy_for_lambda.arn}

打包和部署 lambda 函数
在这里,我们打包 python 代码并将其部署为 lambda 函数。

data "archive_file" "lambda_zip" {  type        = "zip"  source_file = "${path.module}/python/orphan-snapshots-delete.py"  output_path = "${path.module}/python/orphan-snapshots-delete.zip"}resource "aws_lambda_function" "lambda_function" {  filename      = data.archive_file.lambda_zip.output_path  function_name = "orphan-snapshots-delete"  role          = aws_iam_role.lambda_role.arn  handler       = "orphan-snapshots-delete.lambda_handler"  runtime       = "python3.12"  timeout       = 30}

lambda 调用的 eventbridge 规则
aws eventbridge 允许您为 lambda 函数创建计划触发器或基于事件的触发器。在这里,我们将配置 eventbridge 以按计划(例如每 24 小时)调用我们的 lambda 函数。您可以在此处的 aws 文档中了解有关 eventbridge 和计划事件的更多信息。

resource "aws_cloudwatch_event_rule" "schedule_rule" {  name        = "orphan-snapshots-schedule-rule"  description = "trigger lambda every day to delete orphaned snapshots"  schedule_expression = "rate(24 hours)"}resource "aws_cloudwatch_event_target" "target" {  rule      = aws_cloudwatch_event_rule.schedule_rule.name  arn       = aws_lambda_function.lambda_function.arn}resource "aws_lambda_permission" "allow_eventbridge" {  statement_id  = "allowexecutionfromeventbridge"  action        = "lambda:invokefunction"  function_name = aws_lambda_function.lambda_function.function_name  principal     = "events.amazonaws.com"  source_arn    = aws_cloudwatch_event_rule.schedule_rule.arn}

第 5 步:应用 terraform 配置

定义基础设施后,初始化并应用 terraform 配置:

terraform initterraform apply

第 6 步:测试和监控 lambda 函数

验证解决方案是否有效:

  1. 手动触发事件(可选):对于初始测试,从 aws lambda 控制台手动触发 lambda 函数。
  2. 监控 cloudwatch 日志: lambda 函数将日志写入 cloudwatch,您可以在其中查看条目以验证快照删除。
  3. 根据需要调整计划:修改schedule_expression以设置快照清理的自定义频率。

总结
通过结合 python (boto3)terraformaws eventbridge,我们创建了一个完全自动化、无服务器的解决方案来清理孤立的 ebs 快照。这种设置不仅降低了云成本,还促进了整洁、高效的 aws 环境。通过计划调用,您可以放心,孤立资源将始终被删除。

在您自己的 aws 账户中尝试此解决方案,体验云资源管理自动化的优势!