공공기관 전산 장애 원인과 예방점검체계 실무 가이드

반복되는 전산 장애와 예방점검체계의 필요성

최근 몇 년간 정부24, 코로나 백신 예약 시스템, 국가 전산망 등 대규모 트래픽이 몰리는 공공 서비스에서 전산 장애가 반복되었습니다. 정부24는 한때 약 20시간 동안 접속 불가 상태가 이어져 전국 민원 서비스가 마비되었고, 코로나 백신 예약 시스템 역시 접속 폭주로 수차례 중단 사태를 겪었습니다. 이런 사건은 단순한 서비스 불가를 넘어 행정 신뢰와 국민 생활 전반에 직접적인 타격을 줍니다.

특히 공공기관 IT 장애는 단순한 서버 오류가 아니라 DB Connection Pool(데이터베이스 연결을 미리 확보해두는 자원 풀) 과부하를 시작점으로 한 연쇄 반응으로 발생하는 경우가 많습니다. DB Connection Pool이 고갈되면 애플리케이션 응답이 지연되고, Failover 절차가 제대로 작동하지 않으면 대체 시스템 전환도 실패합니다. 여기에 외부 연계 API 타임아웃까지 겹치면 의존 시스템으로 장애가 확산되며, 실시간 모니터링 체계가 부재하면 초기 대응이 늦어져 전체 시스템 마비로 이어집니다. 그러나 지금까지 많은 기관은 이러한 세부 원인을 사전에 점검하기보다는 장애 발생 후 복구 속도(MTTR, Mean Time to Recovery)를 줄이는 방식에 집중해왔습니다.

이러한 한계를 보완하기 위해 행정안전부는 최근 범정부 예방점검체계 도입을 발표했습니다. 이는 공공기관 정보시스템을 사전에 점검해 안정성을 확보하기 위한 제도로, ‘복구 중심’에서 ‘예방 중심’으로 관리 패러다임을 전환하려는 시도입니다. 현업 엔지니어의 관점에서 예방점검체계는 단순한 제도적 지침이 아니라, DB Connection Pool 점검, Failover 리허설, 모니터링 알람 검증과 같은 운영 항목을 정기적으로 수행하도록 체계화한 가이드라인으로 해석할 수 있습니다. 결국 제도가 큰 방향성을 제공한다면, 이를 현장에서 구체화하는 것은 엔지니어의 역할입니다.

1. 공공기관 전산 장애의 주요 기술적 원인은?

DB Connection Pool – 과부하의 전형적인 시작점

대규모 트래픽이 몰릴 때 가장 먼저 병목이 발생하는 지점은 DB Connection Pool입니다. 애플리케이션은 동시에 몰려드는 사용자 요청을 제한된 수의 커넥션으로 처리합니다. 그런데 순간적으로 요청이 폭증하면 Pool이 금세 가득 차고, 신규 요청은 대기열로 밀려나게 됩니다. 이 상태가 길어지면 설정된 제한 시간 내에 연결을 확보하지 못해 Timeout이 발생하고, 결국 서비스 지연이나 중단으로 이어집니다.

장애 시나리오 예시

평상시: 동시 사용자 1,000명, Connection Pool 크기 20개로 충분

트래픽 급증: 동시 사용자 10,000명, Pool 20개로 부족

결과: 9,980명이 Connection 대기 → 설정된 Timeout 시간(예: 30초) 내에 연결 확보 실패 → 순차적으로 오류 발생 → 서비스 장애

이런 구조적 취약점은 특히 정부24나 코로나 백신 예약 시스템처럼 순간 트래픽이 폭증하는 공공 서비스에서 자주 드러납니다. 단순히 서버를 증설한다고 해서 해결되지 않는 이유입니다. Connection Pool 크기 최적화, 커넥션 누수(Connection Leak) 점검, Pool 사용률 실시간 모니터링 등 데이터베이스 차원의 세밀한 관리가 반드시 필요합니다.

예방점검체계에서도 단순히 하드웨어 리소스만 확인하는 것이 아니라, 실제 운영 환경에서 Connection Pool 설정의 적정성과 트래픽 집중 시 처리 능력을 점검하는 것이 핵심입니다. 이를 위해서는 테스트 환경뿐 아니라 운영 환경 모니터링을 통해 Connection Pool 사용률, 평균 대기 시간, Timeout 발생 건수 같은 지표를 꾸준히 관찰해야 합니다.

정책 문서에 Connection Pool이라는 용어가 직접 등장하지 않더라도, 현업 DBA와 인프라 엔지니어가 수행하는 정기 점검 항목으로 구체화될 수 있습니다. 즉, 제도가 방향성을 제시하면 현업에서 기술 스택에 맞는 체크리스트를 만드는 것이 실질적인 예방점검의 출발점입니다.

Failover – 설계만 있고 리허설은 없는 경우

많은 기관은 장애에 대비해 데이터베이스, 애플리케이션 서버, 네트워크 장비 등 핵심 인프라를 이중화(Active-Standby 또는 Active-Active)로 구성하고, 장애 발생 시 예비 시스템으로 전환되는 Failover 구조를 설계합니다. 하지만 문제는 이 구조가 실제 상황에서 제대로 작동하는지 정기적으로 검증하지 않는 경우가 많다는 점입니다. 설계상으로는 완벽한 이중화 시스템을 구축했다 하더라도, 설정 오류, 복제 지연, 네트워크 라우팅 문제, 운영자 숙련도 부족 등으로 인해 Failover가 실패하거나 지연되는 사례가 현장에서 반복적으로 보고되고 있습니다.

특히 전국적으로 연결된 공공 정보시스템은 단일 장애가 곧바로 대규모 서비스 중단으로 이어질 수 있기 때문에, Failover가 작동하지 않는다면 민간보다 피해 규모가 훨씬 커집니다. 그럼에도 불구하고 Failover 리허설이나 재해 상황을 가정한 재해복구(DR) 테스트는 비용과 인력 부담 때문에 뒷전으로 밀리는 경우가 많습니다. 결국 설계는 있으나 실행은 검증되지 않은 상태가 가장 흔한 위험 요소로 남게 되는 것이죠.

범정부 예방점검체계가 강조하는 핵심 과제 중 하나도 바로 이 리스크를 줄이는 것입니다. 하지만 문서 차원의 점검만으로는 한계가 있으며, 현장에서는 반드시 정기적인 Failover 리허설과 DR 시나리오 테스트가 병행되어야 합니다. 제도가 방향을 제시한다면, 실무 차원에서 이를 뒷받침하는 리허설과 검증이 더해져야만 예방점검체계가 실효성을 가질 수 있습니다.

💡

예방점검체계가 제대로 기능하기 위해서는, 제도와 현장의 협업이 함께 이루어져야 합니다.

탐지 지연(MTTD) – 복구보다 중요한 단계

예방점검체계에서 강조하는 모니터링 체계 구축은 단순히 서버가 가동 중인지 확인하는 수준이 아닙니다. 핵심은 문제가 생겼을 때 얼마나 빨리 탐지하느냐, 즉 평균 탐지 시간(MTTD, Mean Time to Detect)을 관리하는 데 있습니다.

* MTTD가 중요한 이유 총 서비스 중단 시간 = MTTD(탐지) + MTTR(복구) 예를 들어, 복구 시간(MTTR)이 똑같이 30분이라고 가정해봅시다. - MTTD 30분인 경우 → 총 1시간 중단 - MTTD 5분인 경우 → 총 35분 중단 탐지를 25분 앞당기면 총 중단 시간을 40% 이상 줄일 수 있는 셈입니다. 장애 발생 자체를 100% 막을 수는 없지만, 장애를 빨리 발견하면 피해를 최소화할 수 있는 것이죠.

실무 경험에 따르면, 장애 발생 후 로그를 수동으로 분석하는 방식은 탐지가 늦습니다. 또한 알람이 너무 자주 울리거나(알람 피로도), 임계값이 부적절하게 설정되면 실제 징후를 놓치기 쉽습니다. 이 때문에 최근에는 실시간 모니터링 도구(APM, DPM, 인프라 모니터링 툴, Observability 플랫폼 등)가 중요하게 다뤄집니다. 이러한 도구는 이상 징후를 조기에 포착하고, 자동 알람을 발생시켜 탐지 시간을 단축합니다.

결국 장애 복구 시간(MTTR)을 줄이는 것만큼이나, 탐지를 앞당기는 것(MTTD 단축)이 전체 장애 관리 성패를 좌우하게 됩니다. 예방점검체계도 이러한 흐름을 제도적으로 뒷받침합니다. 현업 엔지니어 관점에서 보면, 정책 문서에 나오는 ‘상시 모니터링’이라는 추상적인 표현은 곧 MTTD를 관리하기 위한 실시간 탐지 체계 구축과 알람 정책 최적화로 해석하고 실행해야 하는 것입니다.

네트워크 보안 이벤트 – IDS/IPS와 모니터링 솔루션의 협업

MTTD가 운영 지표라면, 보안 영역에서도 같은 문제가 발생합니다. 서비스 장애의 원인이 항상 서버나 데이터베이스만은 아니기 때문입니다. 때로는 예상치 못한 네트워크 트래픽 이상이나 외부 공격이 장애의 직접적인 원인이 되기도 합니다.

대표적인 사례가 DDoS 공격입니다. 대량의 요청이 한꺼번에 몰리면 네트워크 장비와 시스템 자원이 급격히 소모되고, 결국 정상 사용자 요청까지 차단될 수 있습니다. 이때 필요한 것이 바로 IDS/IPS입니다.

IDS(침입 탐지 시스템): 공격을 탐지하고 알람을 발생

IPS(침입 방지 시스템): 탐지된 공격을 실시간 차단

특히 Snort, Suricata, Zeek과 같은 IDS/IPS 오픈소스 도구나 상용 솔루션을 통해 네트워크 트래픽을 실시간 분석하여 공격 패턴을 식별할 수 있습니다.

그러나 보안 이벤트 탐지만으로는 충분하지 않습니다. 동시에 운영 모니터링 솔루션이 CPU, 메모리, 네트워크 연결 상태, 애플리케이션 응답 속도 등을 함께 관제해야 합니다. 그래야 ‘비정상 트래픽 → 자원 고갈 → 서비스 지연’이라는 연결 고리를 빠르게 파악하고, 단순한 성능 저하인지 보안 위협에 의한 장애인지 구분할 수 있습니다.

결국 보안 탐지(IDS/IPS)와 운영 모니터링의 협업이 이루어져야 장애 예방 효과가 극대화됩니다. 예방점검체계 역시 보안 취약점 점검 항목을 통해 이러한 필요성을 제도적으로 반영하고 있습니다. 다시 말해, 보안 탐지 시스템과 운영 모니터링 시스템이 통합적으로 운영될 때 비로소 예방점검체계가 요구하는 보안과 성능 안정성을 실질적으로 확보할 수 있습니다.

2. 공공 정보시스템 예방점검체계와 표준운영절차

앞서 살펴본 DB Connection Pool 과부하나 Failover 리허설 부족 등의 요인은 공공기관 시스템 장애에서 반복적으로 나타나는 전형적인 리스크입니다. 이러한 기술적 문제들을 사전에 식별하고 관리하기 위해 행정안전부는 범정부 정보시스템 예방점검체계를 운영하고 있습니다.

2-1. 예방점검체계: 일상점검에서 구조진단까지

예방점검체계는 아래와 같이 각 단계별로 구조화됩니다.

일상점검 메인 화면 접속 여부, CPU/메모리/디스크 상태 등 이상 유무를 정기적으로 확인합니다. DB Connection Pool 사용률을 매일 확인하거나 IDS/IPS 알람을 리뷰하는 것이 여기에 해당합니다.

특별점검 트래픽 증가 가능성이 있는 경우, 성능·보안 항목을 종합적으로 점검합니다. Failover 리허설을 분기마다 실시하거나 Connection Pool 크기를 재조정하는 것이 대표적입니다.

구조진단 하드웨어부터 데이터베이스, 네트워크까지 전체 정보시스템의 구조를 진단합니다. 3년에 한 번은 시스템 전체를 점검해 구조적으로 숨은 리스크를 찾아내고, MTTD 개선을 위한 모니터링 체계 전면 재검토 같은 개선 방안을 마련하도록 의무화한 것입니다.

문서상으로는 다소 추상적으로 보일 수 있지만, 현업 엔지니어의 관점에서 보면 이는 곧 구체적 실행 과제로 번역됩니다. 예를 들어 DB Connection Pool 사용률 확인은 일상점검에서 매일 수행하고, Failover 리허설은 특별점검에서 분기별로 실시하며, 전체 시스템 구조의 적정성 검토는 구조진단에서 이루어집니다.

2-2. 표준운영절차: 예방-대응-사후관리의 선순환

예방점검체계가 리스크를 사전에 발견하는 도구라면, 표준운영절차는 발견된 문제를 어떻게 예방·대응·관리할지에 대한 실행 매뉴얼입니다.

장애예방: 미리 차단하는 다섯 가지 절차

요청 관리: 사용자 요구사항을 공식적으로 접수·처리

구성 관리: 하드웨어, 소프트웨어, 네트워크 구성에 대한 관리

변경 관리: 정보시스템 변경 시 표준화된 방법, 절차를 따라 리스크 최소화

이벤트 관리: 정보시스템에서 발생하는 다양한 이벤트를 탐지·관리

서비스수준 관리: 고객기관 및 사업자와 서비스 관리수준 정의·관리

장애대응: 발생 시 흔들리지 않기

장애관리: 장애 발생 시 빠른 전파와 복구를 위한 관리

백업관리: 데이터 백업·복구 절차로 서비스 연속성 보장

사후관리: 같은 문제가 반복되지 않도록

문제관리: 장애의 근본 원인 분석, 재발 방지를 위한 개선책 도출행정안전부는 정보시스템 예방점검체계와 정보시스템 표준 운영절차를 마련하여 2025년부터 모든 공공기관에 적용 권고, 2026년부터 적용을 의무화할 계획입니다.

3. 예방은 디테일에서, 완성은 체계에서

공공 IT 시스템의 전산 장애는 단순한 우연이 아니라, 다양한 기술적 결함에서 시작됩니다. DB Connection Pool 과부하, Failover 리허설 부족, 탐지 지연, 네트워크 이상 트래픽 등은 엔지니어라면 누구나 경험해 본 현실적인 리스크입니다. 이런 작은 문제들이 쌓이면 대국민 서비스의 신뢰와 행정 효율성에 큰 혼란을 초래합니다. 범정부 예방점검체계는 이러한 개별 리스크들을 체계적으로 점검하도록 제도화한 장치입니다.

모니터링 솔루션이 필요한 신호, 이런 경험 있으신가요?

DB Connection Pool 고갈이나 CPU·메모리 사용률 등을 정기적으로 확인하지 못하고 있다.

Failover 리허설이나 DR 테스트가 문서로만 존재하고 실제로 수행되지 않는다.

장애 탐지 지표(MTTD)가 관리되지 않아, 이상 징후를 늦게 발견한 적이 있다.

👉 세 가지 중 하나라도 해당된다면, 예방점검체계의 실무 이행을 위해 체계적인 모니터링 솔루션 도입을 검토할 시점입니다.

결국, 장애 예방은 디테일에서 시작되고, 체계에서 완성됩니다. 예방점검체계는 엔지니어의 일상적 운영 항목을 제도적 언어로 번역한 것이며, 현업과 정책이 조화를 이룰 때 그 효과가 극대화됩니다.

반복되는 전산 장애, 제도만으로는 부족합니다.

현업에 맞는 모니터링 솔루션은? 👇

올인원 | 엑셈

하이브리드 클라우드를 위한 풀스택 옵저버빌리티. 인프라부터 애플리케이션, 네트워크, 사용자 경험까지 모든 IT 구성 요소를 실시간으로 모니터링하는 통합 관리의 새로운 방식을 제안합니다.

https://ex-em.com/ko/service/all-in-one

출처

‘정부24’ 서비스 20시간 만에 임시 재개…완전 복구는 아직 - 한겨레 (2023.11.18) 공공 정보시스템 '표준운영절차' 응용프로그램까지 확대…디지털정부 안정성 강화 목표 - 지디넷코리아 (2025.04.14)

함께 보면 좋은 아티클

같은 지표, 다른 관점: RUM vs APM 제대로 알기 | 엑셈

RUM vs APM 실무 가이드, 지표는 정상인데 왜 고객은 느리다고 할까?

https://ex-em.com/ko/blog/rum-vs-apm-complete-guide

넷플릭스 사례로 보는 Cloud Native와 모니터링의 중요성 | 엑셈

cloud native로 빠른 출시와 안정성을 동시에 잡는 글로벌 기업의 비밀

https://ex-em.com/ko/blog/netflix-cloud-native-monitoring