AI가 인간 의사보다 ‘진료 판단’ 정확했다

이현정 기자
수정 2026-02-11 00:53
입력 2026-02-11 00:53
정확도 AI 94% vs 의료진 85%
“복잡한 판단 보조 도구 활용 가능”
인공지능(AI)이 실제 환자 사례를 분석한 결과 의료진보다 더 높은 진단 정확도를 보였다는 연구 결과가 나왔다. 다만 연구진은 AI가 의사를 대신하기보다는 복잡한 판단을 돕는 보조 도구로 활용될 가능성이 크다고 선을 그었다.연세대 의대 본과생들과 용인세브란스병원 교수 연구팀은 오픈AI의 멀티모달·추론 인공지능 모델의 임상 판단 성능을 의료진과 비교·분석한 결과를 10일 발표했다.
연구팀은 2011년부터 2024년까지 의료 교육 플랫폼 ‘메드스케이프’에 공개된 환자 사례 1426건을 활용했다. 각 사례에는 병력과 검사 수치뿐 아니라 엑스레이(X-ray), 컴퓨터단층촬영(CT), 자기공명영상(MRI), 심전도, 병리 슬라이드 등 총 917건의 의료 영상이 포함돼 실제 진료 현장과 유사한 조건을 갖췄다.
분석 결과 다수 의료진이 선택한 답안의 평균 정확도는 85.0%였다. 반면 오픈AI ‘GPT-4o’ 모델은 88.4%, 최신 추론 모델 ‘o1’은 94.3%의 정확도를 기록했다. 특히 o1은 진단뿐 아니라 질병 특성 파악, 검사 계획 수립, 치료 방향 설정 등 전 과정에서 90% 이상의 성능을 유지했다.
같은 사례를 다섯 차례 반복 분석한 결과에서도 AI의 판단은 비교적 일관됐다. o1 모델은 90.7%의 사례에서 다섯 번 모두 같은 정답을 제시했다. 연구진은 “단순한 우연이나 무작위 선택이 아닌 체계적인 추론을 바탕으로 답을 도출했음을 보여주는 결과”라고 설명했다.
배성아·박진영 용인세브란스병원 교수는 “AI가 텍스트와 의료 영상을 통합해 실제 임상의 수준 판단을 내릴 수 있다는 점을 객관적으로 입증한 사례”라면서도 “이는 AI가 의료진의 판단을 대체한다기보다, 복잡한 임상 상황에서 의사 결정을 보조하고 안전성을 높이는 도구로 활용될 수 있음을 보여준다”고 밝혔다. 연구 결과는 국제 의학 학술지 ‘메디신(볼티모어)’ 최신 호에 게재됐다.
세종 이현정 기자
2026-02-11 10면
에디터 추천 인기 기사
많이 본 뉴스