클라우드 혁신의 중심, AWS Summit Seoul 2026 현장
지난 5월, 코엑스에서 국내 최대 규모의 클라우드 행사 AWS Summit Seoul 2026이 열렸습니다. 올해는 첫째 날 'Industry Day', 둘째 날 'AI Day'로 구성되어, 산업별 클라우드 활용 사례부터 생성형 AI · LLM 인프라 운영까지 폭넓게 다뤄졌습니다.
엑셈도 이 행사에 직접 참여해, 현장에서 IT 운영·개발 담당자 1천여 명의 이야기를 듣고 다양한 세션의 사례를 살펴봤습니다. 산업도 주제도 달랐지만, 행사 전반을 관통한 질문은 결국 하나였습니다. '왜 모니터링을 넘어 옵저버빌리티(Observability)인가?' 2026년 옵저버빌리티의 방향도 이 질문 위에서 분명하게 드러났습니다.

.jpg?table=block&id=376ddf18-253e-8093-b3f5-e5ba87634293&cache=v2&width=1200)
1. 왜 모니터링을 넘어 옵저버빌리티(Observability)인가?
모니터링이라는 단어가 이미 익숙한데도, 업계는 왜 다시 '옵저버빌리티(Observability)'를 이야기할까요?
답은 시스템 복잡도에 있습니다. 마이크로서비스, 컨테이너, 멀티 클라우드, 그리고 LLM 기반 AI 에이전트까지 더해진 지금, 사용자 요청 하나가 인증·주문·결제·알림 등 수십 개의 컴포넌트를 거쳐 처리됩니다. 이런 환경에서는 CPU 사용률 같은 단편적인 지표만으로는 '어느 구간에서, 왜 문제가 생겼는지'를 파악하기 어렵습니다.
옵저버빌리티는 시스템에서 발생하는 세 가지 데이터 축, Metric(지표) · Log(로그) · Trace(추적)를 함께 수집하고 연계해, '왜 이런 일이 일어났는가'까지 추적할 수 있도록 합니다. Metric이 '무엇이 얼마나 나빠졌는지'를 보여준다면, Log는 '그 순간 어떤 일이 있었는지', Trace는 '어떤 경로를 거쳐 그렇게 되었는지'를 드러냅니다. 이 세 축을 연계해야 비로소 단순한 관찰을 넘어 원인 추적이 가능해집니다.
💡 모니터링이 '무엇이 일어났는가'에 답한다면, 옵저버빌리티는 '왜 일어났는가'에 답합니다.
AWS Summit Seoul 2026에서도 같은 문제의식이 반복해서 등장했습니다. 현장에서 공유된 세션들을 종합하면, 2026년 옵저버빌리티가 향하는 방향은 세 가지 트렌드로 정리됩니다.
1-1. 데이터의 표준화, OpenTelemetry
과거 IT 환경에서는 모니터링 도구마다 데이터를 수집·전송하는 방식이 제각각이었습니다. 특정 벤더 솔루션을 도입하면 그 회사 에이전트와 포맷에 종속될 수밖에 없었고, 다른 도구와의 연동은 사실상 불가능했습니다.
2026년 현재, IT 업계는 OpenTelemetry라는 표준에 사실상 합의했습니다. CNCF(Cloud Native Computing Foundation) 산하 프로젝트로, Google·Microsoft·AWS·IBM이 표준 정의에 참여하고, GitHub·Shopify·eBay 같은 대형 서비스가 실제 프로덕션에 채택한 업계 표준입니다. 이번 Summit에서도 거의 모든 옵저버빌리티 세션의 기반 기술로 등장했고, 멀티 에이전트 간 계층적 Trace 연결이나 MCP(Model Context Protocol)를 활용한 외부 도구 표준 연동 사례도 소개되며, OpenTelemetry의 적용 범위가 인프라를 넘어 AI 에이전트 운영까지 빠르게 확장되고 있음이 드러났습니다.

1-2. 운영의 지능화, AIOps에서 AI Observability로
기존 모니터링은 ‘CPU 사용률 80% 초과 시 알람’처럼 운영자가 정적 임계치를 직접 설정하는 방식에 의존했습니다. 하지만 트래픽 패턴이 시시각각 변하는 현대 시스템에서 고정 임계치는 두 가지 문제를 반복합니다. 정상적인 급증에도 알람이 울리는 노이즈 과잉, 그리고 점진적으로 진행되는 이상 징후를 놓치는 탐지 공백입니다. AIOps는 시스템의 시계열 데이터를 지속 학습해 현재 맥락에서 정상 범위를 동적으로 판단하고, 이상 탐지와 함께 원인 분석·대응 가이드까지 제시합니다.
AIOps의 역할은 인프라 이상 탐지에 그치지 않고 빠르게 확장되고 있습니다. 이번 Summit에서도 보안 위협을 자동 탐지·대응하는 AI SecOps, 장애 원인 분석부터 자동 롤백까지 처리하는 DevOps 에이전트, 그리고 도메인별 전문 에이전트를 하나의 체계로 묶는 Multi-Agent AIOps 플랫폼까지 다양한 사례가 소개됐습니다. AI가 판단하고 대응하는 영역이 IT 운영 전반으로 넓어지고 있음을 보여주는 흐름이었습니다.
LLM 기반 서비스가 늘면서 기존 APM・RUM으로는 안 잡히는 지표 — 토큰 사용량・추론 지연・할루시네이션 — 도 과제가 됐습니다. 응답이 느릴 때 원인이 프롬프트 생성인지, 벡터 검색인지, 호출 자체인지를 계층별로 봐야 실제 개선이 가능하죠. 실제로 한 세션에선 AI PoC의 46%가 프로덕션에 도달하지 못한다는 수치도 공유됐는데, 주원인은 운영 단계의 관측·통제 부재였습니다. LLM은 모델 성능만큼 어떻게 운영·관측하느냐가 안착을 가릅니다.

1-3. 관점의 통합, Full-Stack Observability
서버·DB·앱 팀이 각자 도구로 자기 영역만 보는 사일로(Silo) 구조에선, 장애가 나도 "우리 쪽은 정상"만 돌아옵니다. 인프라는 멀쩡한데 앱이 느리고, 앱은 정상인데 DB가 밀리고 — 계층이 연결되지 않으면 병목이 어디인지 끝내 알 수 없죠.
풀스택 옵저버빌리티(Full-Stack Observability)는 이 사일로를 구조적으로 해소합니다. 서버·앱·DB·쿠버네티스까지 모든 계층의 Metric·Log·Trace를 단일 플랫폼에서 수집·연계해, 장애가 어느 계층에서 시작해 어떻게 전파됐는지를 끊김 없이 추적하죠. 이번 Summit의 차세대 아키텍처들을 보면 통합 대상이 이제 멀티 에이전트 환경까지 확장되고 있었습니다. AI 에이전트는 여러 서비스를 자율 호출·조합하기 때문에, 단일 서비스 관측만으로는 '어떤 경로로 어떤 판단을 했는지' 추적하기 어렵거든요.

에이전트 간 협업(Agent-to-Agent)·공유 메모리·ID 기반 접근 제어를 결합해, 분산된 에이전트들을 하나의 통제 가능한 구조로 묶는 방식이 이번 Summit 세션 전반에서 공통적으로 제시되었습니다.
현장에서 가장 자주 들린 키워드는 단연 'AI 에이전트'였습니다. 표준화도, AIOps 자동화도, 통합 관측도 모두 AI 에이전트로 확장되고 있었죠. 옵저버빌리티의 무게중심이 '시스템을 관측하는 AI'에서 'AI를 관측하는 시스템'으로 이동하는 흐름 — 그것이 2026년 Summit을 관통한 메시지였습니다.
2. AIOps Challenge — 사람의 '직감' vs AI가 제시한 최적의 운영 기준
AWS Summit Seoul 2026 현장에서 엑셈은 'AIOps Challenge' 체험 이벤트를 운영했습니다. 이 게임에는 하나의 질문이 담겨 있었습니다.
"AI 없이 '최적의 운영 기준'을 설정하는 일은 생각보다 훨씬 어렵다”
참가자들은 실제 운영 환경을 모사한 CPU 모니터링 그래프를 보며, 알람 임계치를 직접 설정하는 방식으로 체험에 참여했습니다. 단순한 CPU 급등 시나리오뿐 아니라, 점진적인 트래픽 증가·반복되는 배치 패턴·미세한 이상 변화처럼 정적 임계치로는 판단이 어려운 상황들을 의도적으로 구성했습니다.
현장 결과는 흥미로웠습니다. 참가자마다 '어디서부터 이상 징후로 볼 것인가'의 기준이 달랐고, 예상보다 정답률이 높지 않았습니다. 같은 그래프를 보면서도 판단이 엇갈린 것입니다. 이는 운영 경험이 풍부한 IT 담당자라도, 맥락 없이 지표만으로 최적의 임계치를 정하는 일이 얼마나 어려운지를 직접 보여주는 결과였습니다.
AI 에이전트와 클라우드 기반 서비스가 빠르게 늘어나는 지금, 사람이 직접 모든 임계치를 정의하고 유지·관리하는 방식만으로는 현실적인 한계가 있습니다. AI 기반 Observability는 시스템의 시계열 패턴을 지속적으로 학습해, 운영 환경 변화에 맞게 알람 기준을 동적으로 조정합니다. 불필요한 알람 노이즈는 줄이고, 정적 임계치로는 잡히지 않는 이상 징후는 더 빠르게 포착하는 방향입니다.
💡 모니터링 알람 임계치는 한 번만 설정해두는 값이 아닙니다.
시스템 상태와 운영 패턴 변화에 따라 지속적으로 다시 판단되어야 하는 요소입니다. 운영의 기준이 사람이 정한 고정된 숫자에서, AI가 데이터 패턴 속에서 찾아낸 동적 기준으로 이동하고 있는 이유도 여기에 있습니다.


3. 풀스택 옵저버빌리티의 완성, 통합 모니터링 플랫폼 ‘exemONE’
앞서 살펴본 세 가지 트렌드— 데이터 표준화(OpenTelemetry), 운영 지능화(AIOps), 관점 통합(Full-Stack) — 는 각각 독립된 과제가 아니라 결국 하나의 방향을 가리킵니다. 분산된 시스템 전체를 하나의 맥락으로 관측하고, AI가 이상을 판단하며, 그 원인을 계층 구분 없이 추적할 수 있는 통합 플랫폼이 필요하다는 것입니다.
exemONE은 이 세 요건을 한 플랫폼에서 구현합니다. 인프라·애플리케이션·네트워크·사용자 경험까지 IT 전 영역을 단일 화면에서 실시간으로 관측합니다. 그 바탕에는 세 가지 핵심 기능이 있습니다.
- One-Platform 기반 Full-Stack 통합 모니터링
- 온프레미스·클라우드·컨테이너 환경에 관계없이 단일 플랫폼에서 전체 IT 흐름을 통합 관측
- AI 기반 이상 탐지
- 시계열 데이터 패턴을 지속 학습하여 정적 임계치로는 포착하기 어려운 미세한 이상 징후까지 동적으로 탐지
- RCA(Root Cause Analysis) 인사이트
- 계층 간 연관 데이터를 분석해 장애의 원인·전파 경로·영향 범위를 파악

시스템은 더 분산되고, AI 에이전트는 더 많아질 것입니다. 그 속에서 안정적인 운영을 유지하려면 데이터를 표준으로 수집하고, AI로 맥락을 판단하며, 전체를 하나의 흐름으로 연결하는 체계가 필요합니다.
엑셈은 이 세 가지 흐름을 모두 담아낸 풀스택 옵저버빌리티 플랫폼 exemONE으로, 변화하는 IT 환경 속에서도 흔들리지 않는 운영 기반을 함께 만들어가고자 합니다.
복잡한 환경에서 장애 원인을 신속하게 파악하세요.
시스템 전체를 하나의 흐름으로 관측하는 통합 플랫폼이 필요하다면? 👇
출처
"Observability Trends 2026" - IBM Think Insights (2026.04) "Observability in the Agentic Era" - IBM Think (2026.04) ”Voice of the Enterprise: AI & ML” - S&P Global (2025) "Why and How eBay Pivoted to OpenTelemetry" - eBay Innovation (2022.12)
함께 보면 좋은 아티클


