AI 인프라 자동화 #1 에이전트가 일을 할 수 있는가

배경

인프라 팀 업무의 상당수가 Slack에서 시작된다.

비용 리포트를 만들고, 이상 징후를 분석해서 댓글을 단다
파라미터 추가 요청이 오면 Terraform으로 반영한다
배포 현황을 집계해서 주간 리포트를 만든다
모니터링 알림이 뜨면 관련 지표를 모아서 공유한다

한 건에 15~30분이지만, 매일 2~3건씩 반복되면 주 5~10시간을 차지한다. 그보다 더 큰 문제는, 사람은 반복에 지치면 놓친다는 것이다. 놓친 이상은 발견될 때까지 조용히 누적된다.

AI 인프라 자동화 #2 채널이 곧 의도다

1편에서는 Claude Agent SDK와 MCP로 Slack 기반 인프라 자동화를 만들었다. 비용 분석, 파라미터 스토어 등록 같은 반복 업무를 AI 에이전트에 맡기는 구조였다.

처음에는 문제 없었다. 그런데 기능을 추가할 때마다 라우팅 규칙이 복잡해졌다. 키워드를 등록하고, 동의어를 챙기고, 실제 메시지로 매칭이 되는지 테스트하는 과정이 반복됐다. 새 기능 하나를 추가하는 데 구현보다 라우팅 규칙을 다듬는 시간이 더 걸렸다.

키워드 라우팅의 한계

기존 메시지 라우팅 구조를 다시 보면 이렇다.

Read full post

ECS 배포 실패 알림: EventBridge → SNS → AWS Chatbot → Slack

자동 복구가 조용히 성공하면, 근본 원인은 조용히 남는다.

ECS에는 Circuit Breaker라는 배포 안전장치가 있다. 배포가 실패하면 자동으로 이전 버전으로 롤백한다. 문제는 이 롤백이 조용하다는 것이다. 배포한 사람도, 운영하는 사람도 실패 사실을 모른 채 넘어갈 수 있다. Lambda 없이, AWS 네이티브 서비스만으로 배포 실패 알림을 Slack에 보내는 과정을 공유한다.

왜 Datadog이 아닌가

처음에는 Datadog 모니터로 해결하려 했다. 하지만 ECS 배포 실패를 감지하기에는 부적합했다.

Read full post