해결 흐름

서로 다른 역할이 같은 incident context를 봅니다.

DevOps/SRE, 개발자, PM/CS/관리자가 장애 시간, 영향 서비스, 이상 신호, 원인 후보, Trace 링크를 같은 작업면에서 확인합니다.

DevOps/SRE 개발자 PM · CS · 관리자
Incident context
Time
14:32-14:48 KST
Impact
checkout-api latency
Signal
p95 + queue wait
Candidate
db pool saturation
Evidence
Trace span group
조치 기록 보고서 초안 회고 재사용 다음 PoC 범위

업무 공간

모니터링, 협업, 보고를 분리하지 않습니다.

01Connect

서비스와 데이터 소스를 연결하고 검증 상태를 확인합니다.

02신호 선별

먼저 볼 패널, 시간대, 변화 구간을 좁힙니다.

03원인 후보

AI Assistant가 다음 확인 지점과 Trace 근거를 정리합니다.

04역할별 조치

개발자, SRE, PM/CS가 같은 맥락에서 각자 행동합니다.

05결정 재사용

조치 기록이 보고서, 회고, 다음 PoC 범위의 초안이 됩니다.

역할별 가치

같은 근거를 보지만, 각자 필요한 결정은 다릅니다.

DevOps/SRE

어떤 서비스와 지표부터 확인할지 정하고, 운영 판단 병목을 줄입니다.

개발자

같은 시간대의 Trace span과 error 흐름을 받아 원인 후보를 확인합니다.

PM/CS/관리자

영향 범위, 조치 현황, 고객 커뮤니케이션용 보고 초안을 확인합니다.

다음 단계

현재 대응 흐름이 Monithub incident room에 맞는지 검증하세요.

현재 대응 흐름으로 검증하기