최근 공공 IT 서비스 장애가 사회적 이슈로 떠오르면서, 정부도 공공 정보시스템의 안정성을 높이기 위한 다양한 정책을 추진하고 있습니다. 특히 언론 보도와 정부 자료에서는 공공 시스템 장애를 사전에 예방하기 위한 ‘범정부 정보시스템 예방점검체계’ 구축을 중요한 과제로 언급하고 있습니다. 공공 서비스는 장애가 발생할 경우 단순한 시스템 문제를 넘어 대국민 서비스 중단으로 이어질 수 있기 때문인데요. 행정·민원·공공 플랫폼 등 온라인 기반으로 운영되는 서비스가 늘어난 만큼 시스템 안정성은 곧 서비스 신뢰성과 연결됩니다.
장애가 발생한 뒤 원인을 찾고 복구하는 방식만으로는, 공공 서비스처럼 영향 범위가 큰 시스템에서 운영 리스크를 충분히 줄이기 어렵습니다. 이러한 이유로 최근 공공기관 IT 운영은 ‘사후 대응’에서 ‘사전 예방’으로 무게중심을 옮기고 있으며, 시스템 상태를 상시적으로 관찰하여 성능 이상 징후를 조기에 포착하고(탐지) 장애로 확산되기 전 조치(예방)할 수 있는 운영 체계를 갖추는 것이 중요해지고 있습니다.
그렇다면 실제 공공 IT 운영 환경에서는 무엇부터 점검해야 할까요? 이번 글에서는 범정부 정보시스템 예방점검체계에 효과적으로 대응하기 위해 서비스를 구성하는 핵심 인프라 영역을 기준으로 운영 상태 점검 포인트를 알아보겠습니다.
1. 범정부 정보시스템 예방점검체계란?
범정부 정보시스템 예방점검체계는 공공 시스템 장애를 사전에 예방하기 위해 시스템 상태를 지속적으로 점검하고 이상 징후를 조기에 발견하는 운영 체계를 의미합니다. 기존 IT 운영 방식이 장애 발생 이후 대응에 초점이 맞춰져 있었다면, 예방점검체계는 장애로 이어질 수 있는 성능 이상을 사전에 발견하고 대응하는 것에 목적이 있습니다.
이를 위해 각 기관은 서비스 운영 환경을 지속적으로 관찰하고, 성능 저하나 시스템 이상 징후를 미리 파악할 수 있는 관리 체계를 구축해야 합니다. 단순한 시스템 점검이 아니라 운영 환경 전반을 지속적으로 관리할 수 있는 체계적인 운영 방식이 요구되는 것입니다.
범정부 정보시스템 예방점검체계는 일상점검·특별점검·구조진단의 3개 분야로 구분하고, 각 분야별로 총 8개 점검 항목과 권장 점검 주기를 제시합니다. 아래 표는 해당 분야와 항목을 요약한 것으로, 각 항목별 점검 주기를 정리할 때 기준점으로 활용할 수 있습니다.
분야 | 주기 | 항목 |
일상점검 | 일 | (상태 점검) 정보시스템의 CPU/메모리/디스크 상태 등 정상 운영에 필요한 필수 세부 항목의 이상 유무 점검 |
ㅤ | 일 | (서비스 점검) 메인 및 메뉴화면 접속, 연계 서비스 정상 여부 점검 |
ㅤ | 월 | (유효성 점검) 인증서 유효기간, 도메인 종료일, 소프트웨어(SW) 라이선스 유효성, 시스템 설정시간 정보 일치 여부 점검 |
특별 점검 | 년 | (오프라인 점검) 시스템 정지·재가동으로 자원 초기화, 정보시스템 자가진단 및 정지·가동절차 점검으로 운영매뉴얼 정합성 확인 등 잠재적 장애요인 제거 |
ㅤ | 년 | (이중화 점검) 이중화된 장비·부품의 정상 동작 여부 점검
※(예시) 이중화 장비 중 하나가 정지되면 나머지 하나로 자동 전환 |
ㅤ | 년 | (성능 점검) 정보시스템의 성능저하 요인을 점검하여 최대 접속 설정값 최적화 등 성능개선 조치 |
ㅤ | 특정 기간 | (업무집중기간 점검) 서비스 집중 기간 중 사용량 증가에 따른 서비스 지연·중지 대비 사전 점검 및 집중 모니터링 |
구조 진단 | 3년 | (구조진단 및 개선) 하드웨어(HW), 시스템SW, 응용프로그램(AP), 데이터베이스, 네트워크 등 전체 정보시스템 구조와 데이터 처리 과정 등을 종합 분석하여 문제점을 진단하고 개선방안 수립
※ 차세대 전환 등 AP 또는 HW가 30% 이상 변경되는 경우에도 수행 |
2. 범정부 예방점검체계 대응을 위한 6가지 점검 리스트
공공 서비스는 일반적으로 다음과 같은 여러 계층의 시스템 구성요소가 유기적으로 연결된 구조로 운영됩니다.
- 서버 인프라
- 웹 서버
- 애플리케이션 서버(WAS)
- 데이터베이스(DBMS)
- 네트워크
- 클라우드
…
이러한 시스템은 서로 연결되어 서비스 요청을 처리하기 때문에 특정 영역의 성능 저하가 전체 서비스 장애로 이어질 수 있습니다. 따라서 예방점검체계 대응을 위해서는 각 시스템 영역의 운영 상태를 종합적으로 점검하는 것이 중요합니다.
2-1. 서버(Server) 자원 사용률과 시스템 상태
서버는 전체 시스템 운영의 기반이 되는 인프라입니다. CPU, 메모리, 디스크 등 주요 자원의 상태를 지속적으로 확인하고 자원 사용률의 이상 여부를 점검하는 것이 중요하죠. 특히 CPU나 메모리 사용률이 일정 시간 이상 지속적으로 상승하는 경우 애플리케이션 성능 저하나 서비스 장애로 이어질 가능성이 높습니다. 또한, 사용 가능한 가상 메모리 크기를 확인하는 Disk Swap 사용률이 임계치에 가까워지는 상황은 메모리 부족이나 비정상적인 자원 점유의 징후일 수 있으므로, 지속적인 모니터링을 통해 사전에 대응할 필요가 있습니다.

엑셈원은 서버의 CPU, 메모리, 디스크 등 주요 리소스 상태를 실시간으로 수집하고 시각화하여 운영자가 시스템 상태를 한 눈에 파악할 수 있도록 지원합니다.
2-2. WEB 서비스 응답 성능
웹 서비스 영역에서는 단순한 인프라 상태 확인을 넘어 실제 사용자 요청이 얼마나 빠르고 안정적으로 처리되는지 함께 점검해야 합니다. 이를 위해 웹 서버 프로세스 상태와 프로세스 CPU 사용률, 서비스 포트 오픈 상태 뿐만 아니라 사용자 요청량 처리 수 등과 같은 서비스 품질 지표를 함께 확인하는 것이 중요합니다. 특히 특정 시간대에 응답 시간이 급격하게 증가하거나 오류율이 높아지는 경우에는 웹 서버 자체 문제뿐 아니라 WAS, DBMS, 외부 연계 시스템에서 발생한 지연이 웹 구간에 드러나는 것일 수 있으므로 연계 관점에서 살펴봐야 합니다.
이처럼 웹 응답 성능은 개별 서버 상태만으로 판단하기 어렵기 때문에, 서버·애플리케이션·데이터베이스 지표를 함께 볼 수 있는 통합 모니터링 환경이 유용합니다.
2-3. WAS 애플리케이션 처리 상태

WAS(Web Application Server)는 실제 서비스 로직이 실행되는 구간으로, 성능 저하나 병목이 자주 발생하는 핵심 영역입니다. 어플리케이션 수행 공간 설정값 초과 여부와 장기수행 작업 확인을 통해 Thread Pool 상태를 점검하고, Connection Pool 상태, Dump 파일 등을 함께 확인하는 것이 필요합니다.
특히 Thread 대기나 Connection Pool 부족 현상은 요청 지연이나 서비스 장애로 이어질 수 있는 대표적인 원인입니다. 이러한 지표를 지속적으로 확인하면 애플리케이션 성능 저하의 초기 징후를 빠르게 발견할 수 있습니다.
2-4. 데이터베이스(DBMS) 성능 및 가용성 상태
데이터베이스 영역에서 먼저 확인해야 할 항목은 아카이브(데이터 변경) 로그 파일 시스템 확인을 통한 OS 파일시스템 사용률입니다. 아카이브 로그는 DB 데이터 변경 내역을 기록하는 파일로 데이터 복구와 장애 대응에 필수적인 역할을 합니다. 하지만 로그가 저장되는 파일 시스템의 공간이 가득 차면 데이터베이스가 정상적으로 기록 작업을 수행할 수 없어 서비스가 중단되는 상황이 발생할 수 있습니다.
또한, 데이터베이스 접속 한도 관련 파라미터와 현재 사용량도 함께 점검해야 합니다. 데이터베이스에는 동시에 접속할 수 있는 최대 프로세스 또는 세션 수가 설정되어 있으며, 한계치에 근접하거나 이를 초과하면 신규 접속 지연이나 차단이 발생해 서비스 응답 저하로 이어질 수 있습니다. 따라서 예방점검 시에는 DB에 설정된 최대 접속 한도 대비 현재 사용 중인 세션 수를 함께 확인해, 접속 자원이 임계치에 가까워지고 있는지 지속적으로 살펴보는 것이 좋습니다.
다만, 이러한 점검 항목은 데이터베이스의 정상 동작 여부와 가용성 리스크를 확인하는 데에는 효과적이지만, 실제 서비스 지연이나 성능 저하의 원인을 직접 파악하는 데에는 한계가 있습니다. 예를 들어 세션 수가 크게 늘지 않았더라도, 특정 쿼리에서 Lock 경합이 발생하거나 디스크 I/O 대기 시간이 증가하면 사용자는 체감 성능 저하를 겪을 수 있습니다. 즉, DB 예방점검에서는 접속 한도와 로그 저장공간 같은 기본 항목과 더불어 실제 병목을 보여주는 성능 지표를 함께 봐야 합니다.
따라서 예방점검 체계와 함께, 활성 세션(Active Sessions), 대기 이벤트(Wait Events), 느린 쿼리와 같은 실시간 성능 지표를 함께 모니터링하여 병목 지점을 조기에 식별하는 것이 중요합니다.
2-5. 네트워크 상태 점검
네트워크 영역에서는 단순히 트래픽 양만 확인하는 것으로는 충분하지 않습니다. 라우터·스위치와 같은 네트워크 장비의 CPU·메모리 사용률과 인터페이스별 트래픽 처리 상태를 함께 점검해야, 서비스 전반의 지연 징후를 더 정확하게 파악할 수 있습니다. 장비 CPU 사용률이 장시간 높게 유지되면 패킷 처리 지연이 발생할 수 있고, 메모리 사용량이 과도하게 증가하면 장비의 안정성에도 영향을 줄 수 있습니다.
또한 인터페이스 점검 시에는 단순 사용률뿐 아니라 드롭(drops), 에러(errors), 링크 상태 변화(link flap)까지 함께 확인하는 것이 좋습니다. 특정 구간의 인터페이스 사용률이 지속적으로 높거나 인터페이스 드롭이 증가하면 병목 구간이 형성되고 있다는 신호일 수 있으며, 이는 서비스 응답 지연이나 패킷 손실로 이어질 수 있습니다. 따라서 예방점검에서는 네트워크 장비 자원 상태와 인터페이스 품질 지표를 함께 살펴, 서비스 지연으로 번지기 전에 이상 징후를 조기에 식별하는 것이 중요합니다.
2-6. 클라우드 환경
최근 공공 IT 환경에서는 가상화 플랫폼과 컨테이너 기반 운영 환경을 활용한 서비스 운영이 점점 확대되고 있습니다. 특히 OpenShift, Kubernetes와 같은 컨테이너 플랫폼 환경에서는 기존 서버 점검 방식뿐만 아니라 클러스터 상태와 컨테이너 워크로드 상태를 함께 점검하는 운영 체계가 필요하죠.
예를 들어 가상화 환경에서는 RHEV-M과 같은 가상화 관리 소프트웨어의 인프라 이상 여부를 확인하고, VM(가상 서버)의 상태나 노드별 자원 사용률을 점검하는 것이 중요합니다. 특히 Master, Infra, Worker 노드의 CPU나 메모리 사용률이 급격히 증가하거나 컨테이너 스토리지 가용량이 부족해지는 경우 서비스 성능 저하로 이어질 수 있기 때문에 지속적인 확인이 필요합니다.
컨테이너 기반 플랫폼에서는 클러스터를 구성하는 주요 Pod의 상태와 로그를 점검하는 것이 중요합니다. 예를 들어 Kubernetes 또는 OpenShift 환경에서는 API 서버나 etcd와 같은 핵심 시스템 컴포넌트가 정상적으로 동작하는지 확인해야 하며, Router나 Registry와 같은 기본 서비스 Pod의 상태 역시 안정적인 서비스 운영을 위해 지속적으로 모니터링해야 합니다.
이와 함께 클러스터 전체 프로젝트에서 발생하는 이벤트 로그를 확인하고 Pod 재시작이나 오류 이벤트가 반복적으로 발생하지 않는지 점검하는 것도 중요한 운영 관리 항목입니다. 이러한 로그와 이벤트 정보는 클러스터 장애나 성능 문제의 초기 징후를 파악하는 데 중요한 단서가 될 수 있습니다.
3. 예방점검, 이제는 통합 모니터링 기반으로 운영해야 할 때
범정부 정보시스템 예방점검 체계에서는 서버, WAS, DB, 네트워크 등 다양한 인프라 영역의 상태를 종합적으로 점검하도록 정의하고 있습니다. 이는 각 시스템이 독립적으로 작동하는 것이 아니라 서로 긴밀하게 연결되어 있기 때문입니다. 예를 들어 서비스 응답 지연이 발생했을 때 그 원인은 WAS 처리 지연일 수도 있고, 인프라 자원 부족이나 네트워크 문제에서 비롯될 수도 있습니다. 따라서 특정 시스템만 개별적으로 확인해서는 정확한 원인을 파악하기 어렵습니다.
하지만 이러한 점검을 시스템별로 각각 확인하거나 수작업으로 수행하는 것은 현실적으로 많은 시간과 노력이 필요합니다. 점검 항목이 많아질수록 IT 운영자의 업무 부담이 커지고, 반복적인 점검 과정에서 점검 누락이나 오류가 발생할 가능성도 높아집니다.
실제로 범정부 정보시스템 예방점검체계 매뉴얼에는 일상점검 기준 약 115개의 세부 점검 항목이 정의되어 있으며, 이 중 필수 점검 항목만 보더라도 약 79개에 달합니다. 이러한 점검 항목을 기준으로 모니터링 시스템이 어디까지 대응 가능한지 살펴보면, 현재 운영 환경의 예방 점검 범위를 가늠해볼 수 있습니다.
다만 이 79개 항목 중 일부는 가상화 플랫폼 관리, 스토리지 인프라 점검, 백업 운영 관리, 운영 정책 관리(인증서·라이선스 등)과 같이 모니터링 솔루션의 적용 범위를 벗어난 영역에 해당합니다. 이러한 항목을 제외하면 대부분의 시스템 상태, 서비스 가용성, 성능 관련 점검 항목은 모니터링을 통해 자동으로 관리할 수 있습니다. 실제 매뉴얼에서도 스크립트 적용이나 모니터링 도구를 활용해 임계치를 설정하고 자동으로 점검을 수행하는 방식 역시 유효한 점검 방법으로 인정하고 있습니다.
이와 같은 이유로 최근에는 서버, 애플리케이션, 데이터베이스, 네트워크의 상태와 성능 데이터를 통합적으로 수집·분석하는 통합 모니터링 기반 예방점검 운영 방식이 더욱 중요해지고 있습니다.

엑셈원(exemONE)은 서버, 웹 서버, WAS, 데이터베이스, 네트워크 등 각 시스템 영역의 성능 정보를 단일 플랫폼에서 통합적으로 분석할 수 있는 풀스택 모니터링 솔루션입니다. 서비스 토폴로지를 기반으로 시스템 구성 요소 간 관계를 시각화하고, 장애 발생 시 문제 구간을 빠르게 특정할 수 있죠. 엑셈원을 활용한다면 예방점검 체계에서 요구하는 일상점검부터 구조진단까지, 각 점검 단계에서 필요한 성능 데이터를 체계적으로 확인하고 대응할 수 있는 운영 환경을 갖출 수 있습니다.
범정부 예방점검 기반 공공기관 IT 운영, ‘이런’ 고민이 있다면?
- 범정부 정보시스템 예방점검 항목을 수작업으로 점검
- 서버, WAS, DB, 네트워크 상태를 여러 시스템에서 확인
- 장애 징후를 사전에 파악하기 어려운 운영 환경
통합 IT 모니터링 플랫폼 엑셈원(exemONE)을 통해
IT 인프라 상태와 성능 지표를 한눈에 확인해 보세요 👉🏻
출처
"행정망 먹통 막자"…2026년부터 공공 정보시스템 예방점검 체계 의무화 - 지디넷코리아 (2024.10.07) 범정부 정보시스템 예방점검체계 매뉴얼 - 행정안전부
함께 보면 좋은 아티클
