AI 인프라 자동화 #1 에이전트가 일을 할 수 있는가

배경

인프라 팀 업무의 상당수가 Slack에서 시작된다.

비용 리포트를 만들고, 이상 징후를 분석해서 댓글을 단다
파라미터 추가 요청이 오면 Terraform으로 반영한다
배포 현황을 집계해서 주간 리포트를 만든다
모니터링 알림이 뜨면 관련 지표를 모아서 공유한다

한 건에 15~30분이지만, 매일 2~3건씩 반복되면 주 5~10시간을 차지한다. 그보다 더 큰 문제는, 사람은 반복에 지치면 놓친다는 것이다. 놓친 이상은 발견될 때까지 조용히 누적된다.

AI 인프라 자동화 #2 채널이 곧 의도다

1편에서는 Claude Agent SDK와 MCP로 Slack 기반 인프라 자동화를 만들었다. 비용 분석, 파라미터 스토어 등록 같은 반복 업무를 AI 에이전트에 맡기는 구조였다.

처음에는 문제 없었다. 그런데 기능을 추가할 때마다 라우팅 규칙이 복잡해졌다. 키워드를 등록하고, 동의어를 챙기고, 실제 메시지로 매칭이 되는지 테스트하는 과정이 반복됐다. 새 기능 하나를 추가하는 데 구현보다 라우팅 규칙을 다듬는 시간이 더 걸렸다.

키워드 라우팅의 한계

기존 메시지 라우팅 구조를 다시 보면 이렇다.

Read full post

AI 인프라 자동화 #3 팀이 함께 쓰는 AI 에이전트 만들기

2편에서 라우팅을 정리하고 나니, 다음 문제가 보였다. 아직 이 시스템은 나 혼자 쓰고 있다.

우리 팀은 각자의 컴퓨터에서 Claude Code를 쓰고 있다. 각자 .md 파일에 노하우를 정리하고, 각자의 프롬프트로 에이전트를 돌린다. 문제는 이 경험이 개인에게 갇힌다는 것이다. A가 시행착오 끝에 찾은 좋은 프롬프트를 B는 모른다. 같은 실수를 반복하고, 같은 질문에 다른 품질의 답이 나온다. 하나의 요청에 여러 명이 각자의 에이전트를 돌리면 토큰은 중복으로 소모되고, 처리 이력은 각자의 컴퓨터에 흩어진다.

Read full post