QA와 엔지니어를 위한 AI ChatBot, 1.0에서 1.2로

QA·엔지니어 업무 지원용 AI 챗봇의 1.2 버전 고도화

안녕하세요, 제품기술연구1팀 오민석 입니다. 저희 팀은 MaxGauge 제품의 QA 업무를 담당하고 있습니다. 그중에서도 고객사 현장에서 발생하는 이슈를 신속하게 분석하고, 엔지니어가 현장에서 바로 활용할 수 있는 정확한 가이드를 전달하는 것이 저희 팀의 중요한 역할 중 하나입니다.

그런데 업무를 진행하다 보면 반복되는 어려움이 있습니다. 바로, 유사한 이슈가 접수될 때마다 과거 이력을 찾고, 로그를 확인하고, 관련 가이드를 정리해 전달하는 과정이 매번 처음부터 시작된다는 것입니다. 경험과 지식은 분명히 쌓이고 있지만, 막상 필요한 순간에 빠르게 꺼내 쓰기가 어렵다는 점이 늘 아쉬움으로 남았습니다.

QA AI ChatBot은 그러한 문제의식에서 출발했습니다. ChatGPT API를 기반으로, 이슈 이력 조회, 설치·설정 가이드 질의응답, 이미지 기반 현상 확인까지 필요한 기능을 추가하고 있습니다. QA와 엔지니어의 실무에 조금이나마 도움이 될 수 있기를 바라며, 이 도구를 만들어온 과정을 공유하고자 합니다.

1. 익숙한 듯 보여도, 확인은 언제나 처음부터

1-1. 이슈 대응 흐름과 그안의 병목

저희 팀의 이슈 대응 흐름은 대략 이렇습니다.

고객사 현장에 방문한 엔지니어가 긴급하게 확인이 필요한 상황이 생기면 메신저를 통해 이슈를 접수합니다. 접수가 되면 버전과 설정 정보, 관련 로그를 요청하고, 로그를 받으면 과거에 유사한 이력이 있었는지 확인합니다. 이력이 있거나 수정 방향이 파악되면 가이드를 정리해 전달합니다.

흐름 자체는 단순해 보이지만, 실제로는 각 단계마다 시간이 추가됩니다. 특히 과거 이력을 찾는 과정이 그렇습니다. 분명히 비슷한 이슈를 처리한 적이 있는데 어느 버전에서, 어떤 환경에서 발생했는지, 그때 어떻게 해결했는지를 파악하려면 여러 문서와 이력을 직접 찾아봐야 합니다. 이 과정에서 기억에 의존하거나, 예전 대화 기록을 검색하거나, 담당자에게 다시 물어보는 일도 생깁니다.

버전이 달라지면 같은 증상도 원인이 다를 수 있고, 동일한 설정도 환경에 따라 동작이 달라지기도 합니다. 익숙하다고 생각했던 이슈도 막상 들여다보면 새로 확인해야 할 부분이 생기기 마련입니다. 이런 어려움은 이슈 대응에만 국한되지 않습니다. 신규 버전을 검증하는 과정에서 과거에 유사한 케이스가 있었는지 확인해야 할 때도, 특정 환경에서만 재현되는 케이스를 분석할 때도 이전 이력이 필요합니다. 그때마다 문서를 찾고 담당자에게 확인하는 과정이 반복되었습니다.

결국 문제는 하나로 정리됩니다.

💡

경험과 지식은 분명히 쌓이고 있지만, 그것을 필요한 순간에 빠르게 꺼내 쓸 수 있는 구조가 없었다는 점입니다. 이 흐름을 줄일 수 있다면 어떨까 하는 생각이 QA AI ChatBot의 출발점이었습니다.

1-2. ChatGPT API 기반으로 시작한 이유

도구를 만들기로 했을 때 가장 먼저 고민한 것은 구현 방식이었습니다. 문서를 직접 검색해 답변을 생성하는 파이프라인을 자체 구축하거나, 별도의 검색 데이터베이스를 운영하는 방식도 검토했습니다. 하지만 구조가 복잡해질수록 유지 보수 부담도 커지고, 무엇보다 당장의 실무 적용이 우선이었습니다. 빠르게 만들어서 실제로 써보는 것이 먼저라고 판단했습니다.

그 기준에서 ChatGPT API는 저희 상황에 잘 맞았습니다.

✅ File Search 기능이 기본으로 제공되어 문서를 업로드하는 것만으로 검색 기반 응답이 바로 가능했습니다.

✅ Thread 기반으로 대화 이력이 자동 관리되기 때문에 맥락이 이어지는 질의응답 흐름을 별도 구현 없이 활용할 수 있었습니다.

✅ 별도의 인프라 구성 없이 API 연동 만으로 빠르게 시작할 수 있다는 점도 중요했습니다.

처음 데이터로 넣은 것은 실무에서 가장 자주 찾게 되는 문서들이었습니다. 이슈 이력, 설치·설정 가이드, 릴리즈 노트, 제품 매뉴얼을 등록했습니다. 복잡한 구성 없이 이 문서들을 업로드하는 것만으로, "이 오류 전에 어떻게 처리했지?", "이 버전 설치 순서가 어떻게 되지?" 같은 질문에 ChatBot이 답할 수 있는 기본 구조가 갖춰졌습니다. 완성된 도구라기보다는 작은 시작이었지만, 그것만으로도 실무에서 조금씩 변화가 느껴지기 시작했습니다.

2. 1.0을 운영하며 배운 것들

2-1. 실제로 쓰인 기능들

1.0을 운영하면서 가장 많이 활용된 기능은 이슈 이력 조회와 설치·설정 가이드 질의응답이었습니다.

이슈 이력 조회는 기대했던 대로였습니다. "이 오류는 전에 어떻게 처리했지?"라는 질문에 ChatBot이 관련 이력을 찾아 답해주는 것만으로도 확인 시간이 눈에 띄게 줄었습니다. 담당자에게 다시 묻거나 문서를 직접 찾아보던 과정이 간소화된 것이 체감상 가장 큰 변화였습니다.

설치·설정 가이드 질의응답도 자주 쓰였습니다. 버전 별 설치 순서나 설정 항목을 물어보면 관련 문서를 기반으로 답변이 나왔고, 엔지니어가 현장에서 직접 확인할 수 있는 창구로 활용되기 시작했습니다.

2-2. 운영 과정에서 드러난 한계

다만, 운영을 하다 보니 아쉬운 부분도 분명히 보였습니다. 먼저 응답 정확도입니다. 질문의 의도를 정확히 파악하지 못하거나, 문서에 관련 내용이 있음에도 엉뚱한 답변이 간헐적으로 발생했습니다. 실무에 바로 활용하기보다는 한 번 더 검증이 필요한 상황이 생겼습니다.

또한 응답 속도도 아쉬움으로 남았습니다. 현장에서 엔지니어가 기다리는 상황에서 응답이 느리게 나오면 도구로서의 신뢰감이 떨어질 수밖에 없었습니다.

마지막으로 이미지 기반 질문도 원활하지 않았습니다. 현장에서는 오류 화면이나 설정 캡처 이미지를 첨부해 "이게 뭔가요?"라고 묻는 경우가 적지 않습니다. 이미지를 전달하는 것 자체는 가능했지만, 채팅창에서 바로 붙여 넣어 질문하는 직관적인 흐름이 갖춰지지 않아 실제로 활용하기 어려웠습니다.

3. 1.2에서 달라지는 것들

3-1. 모델 업그레이드: GPT-4o에서 GPT-5.2로

1.2의 가장 핵심적인 변화는 AI 모델 업그레이드입니다. GPT-4o에서 GPT-5.2로 전환하면서 응답 품질이 전반적으로 향상되었습니다. 품질 향상은 사전에 준비한 검증 질문 세트를 기준으로 정답률을 측정하는 방식으로 확인했습니다. MaxGauge ChatBot 기준으로 1.0에서 86%였던 응답 정답률이 GPT-5.2 적용 후 100%로 향상되었습니다. 간헐적으로 발생하던 엉뚱한 답변이나, 문서에 내용이 있음에도 제대로 찾지 못하는 경우가 크게 줄었습니다. InterMax ChatBot도 동일하게 GPT-5.2로 업그레이드하면서 비슷한 맥락으로 개선이 확인되었습니다. 이러한 결과는 단순히 모델이 좋아진 것 이상의 의미가 있습니다. 1.0에서는 ChatBot의 답변을 한 번 더 검증해야 하는 경우가 있었는데, 정확도가 높아지면서 실무에서 바로 활용할 수 있는 신뢰도가 확보되었습니다.

3-2. 이미지 분석 추가

1.0에서 접근하기 어려웠던 이미지 기반 질문이 1.2에서 자연스럽게 가능해집니다. 화면 캡처를 채팅창에 바로 첨부해 "이 화면에서 뭐가 문제인지 분석해 줘"라고 질문할 수 있게 됩니다. 현장의 실제 화면을 직접 보고 답변이 이어지는 구조로, 이슈 확인 과정이 한층 더 직관적으로 바뀌었습니다.

3-3. 응답 속도 개선

1.0에서 아쉬움으로 남았던 응답 체감도도 1.2에서 개선되었습니다. 답변이 생성되는 즉시 첫 글자부터 화면에 출력되는 방식은 유지하면서, 모델 품질 향상으로 재질문 빈도가 줄어 원하는 답을 얻기까지 걸리는 전체 시간이 단축되었습니다. 현장에서 빠르게 응답이 나오는 것은 도구의 신뢰도와 직결되므로, 이번 응답 속도 개선은 실무 활용도 측면에서 긍정적인 변화라고 볼 수 있습니다.

마치며

QA AI ChatBot은 큰 계획을 가지고 시작된 것이 아닙니다. 반복되는 이슈 대응 과정에서 느꼈던 작은 불편함, 축적된 경험을 필요한 순간에 빠르게 꺼내 쓸 수 없었던 아쉬움에서 출발했습니다. 1.0은 완성된 도구라기보다는 그 아쉬움을 해소해 보려는 첫 시도였습니다. 이슈 이력 조회와 설치·설정 가이드 질의응답 만으로도 실무에서 개선되는 변화는 분명히 있었습니다. 동시에 응답 정확도, 속도, 이미지 접근성 등 운영하면서 드러난 한계도 있었고, 그것이 1.2로 이어지는 직접적인 동기가 되었습니다. 1.2에서는 GPT-5.2로의 모델 업그레이드를 통해 응답 유사도가 86%에서 100%로 향상되었고(자체 유사도 검증 기준), 이미지 첨부 분석과 응답 체감 개선이 더해졌습니다.

AI 도구가 QA와 엔지니어의 업무를 대신하는 것이 목표는 아닙니다. 반복되는 확인 과정을 줄이고, 필요한 정보를 빠르게 찾을 수 있도록 돕는 것. 그것만으로도 업무의 부담은 달라집니다. 앞으로도 운영하면서 드러나는 한계를 하나씩 개선해 나갈 예정입니다. 이 글이 유사한 고민을 하고 계신 분들께 조금이나마 참고가 되길 바랍니다.

실제 QA 프로세스를 통해 검증된 MaxGauge를 만나보세요.

자세히 살펴보기 👉🏻

AI로 테스트 코드 작성을 자동화한 경험과 배운 점