전세계적으로 인공지능 챗GPT의 열풍이 뜨겁다. 미국의 오픈AI가 내어놓은 챗GPT는 거대언어모델(LLM), GPT에 기반한 인공지능으로, 사람과 대화하듯이 인공지능과 채팅 형식으로 말을 주고 받으며, 다양한 과업을 수행할 수 있다. 과거 인공지능은 딱 한가지의 과업을 수행하는 목적으로 개발되었으나, 챗GPT는 일반적인 인지 능력을 가지고 있기 때문에 ‘언어’로 주문할 수 있는 다양한 질문, 명령 등에 대해서 답을 내어놓는다.
지난 3월 GPT-4의 출시 이후 챗GPT의 성능은 비약적으로 발전했다. 마이크로소프트의 연구자들은 최근 한 논문을 통해 이제 챗GPT가 수학, 프로그래밍, 시각, 의학, 법률, 심리학 등을 아우르는 새롭고 어려운 과제를 해결할 수 있음을 입증하며, 인간 수준의 성능에 놀라울 정도로 근접했다는 것을 보였다 [1]. 이를 통해 GPT-4가 사람처럼 사고할 수 있는 일반 인공 지능(AGI)의 초기 버전으로 볼 수도 있다고까지 주장했다. 챗GPT 뿐만 아니라, 구글이 개발한 팜(PaLM) 등의 LLM 역시 챗GPT 못지 않은 좋은 성과를 보이고 있다.
이러한 LLM의 활용 분야로 가장 중요하게 꼽히는 분야가 의료이다. 오픈AI에서 GPT-4를 외부에 공개하기 전부터 의료는 중요 활용 분야로 지정하여 내부적으로 연구를 진행해왔다. 오픈AI의 지분 49%를 소유한 마이크로소프트의 연구자들이 지난 3월 NEJM에 출판한 아티클에 따르면, GPT-4의 의료 활용 가능성을 외부 공개 전 6개월 동안 면밀하게 연구해왔다고 한다 [2].
이에 따라 최근 의료계에는 챗GPT를 비롯한 LLM을 어떻게 의료를 혁신할 수 있을 것인지에 대한 논의가 활발하게 진행되고 있다. LLM은 텍스트로 이루어진 의학 지식을 대규모로 학습할 수 있을 뿐만 아니라, 사용자와 서로 상호작용할 수 있다. 따라서 이를 의료의 다양한 문제 해결에 활용할 수 있는 가능성이 있다.
LLM의 의료 적용에서 가장 활발하게 연구되고 있는 주제는 바로 의학 질문에 답을 얼마나 잘 하는지를 검증해보는 것이다. LLM이 임상 지식을 얼마나 잘 인코딩하고 있으며, 임상적으로 잠재력이 있는지를 평가하기 위해서 가장 직접적인 방법이기 때문이다.
대표적인 연구로 ChatGPT에 미국 의사 면허 시험(USMLE) 문제를 입력하고, 정답을 얼마나 맞추는지를 테스트한 사례가 있다 [3]. 이 연구에서는 USMLE의 웹사이트에 2022년 6월 공개된 샘플 문제 376개 중에서, 이미지와 그래프 등이 포함된 문제를 제외한 총 305문제를 ChatGPT에 입력하였다. 프롬프트는 크게 세 가지 형식으로 입력하였다: 선택지를 제외하고 의문문으로 변환해서 입력하거나, 선택지까지 문제 그대로 입력하거나, 또는 추가적으로 정답에 대한 설명까지 요구하는 방식이었다.
ChatGPT의 답변을 두 명의 의사가 검토한 결과, 정확도는 대부분의 평가 방식에서 50%이상, 일부 60% 이상을 보여주면서 USMLE를 통과할 수 있거나 통과에 근접한 퍼포먼스를 보여주었다. 또한 답변은 94.6%의 높은 일관성(concordance)를 보여주었으며, 답변의 88.9%에서 적어도 유의미한 인사이트가 포함되어 있었다.
또한 구글이 개발한 의료에 특화된 LLM인 Med-PaLM이 다양한 의학적 질문에 답하는데 좋은 성능을 보여준다는 것을 보여주었다 [4]. 구글의 연구자들은 LLM의 임상적 잠재력을 테스트하기 위해서 MultiMedQA라는 의학적 질문-답변의 새로운 벤치마크 데이터셋을 만들었다. 여기에는 기존의 의학 질문-답변 데이터셋 6가지(MedQA, MedMCQA, PubMedQA 등)과 구글에 검색된 의학 질문을 활용한 HealthSearchQA가 포함된다.
의학에 특화된 LLM을 만들기 위해, 540B개의 파라미터로 구성된 구글의 범용 LLM인 PaLM을 기반으로 instructuion-tuned variant인 Flan-PaLM을 만들었다. 이 Flan-PaLM에 few-shot, chain-of-thought, self-consistency prompting strategy를 활용해서 여러 의학 질문-답변 데이터셋에 테스트해보면, state-of-the-art 성능을 보여준다. 하지만 Flan-PaLM은 구글에서 사람들이 검색한 질문에 답하는 능력은 다소 떨어졌다. 그래서instruction prompt tuning을 활용해서 Flan-PaLM을 메디컬 도메인에 더 적응시키는 과정을 거쳤다. 그렇게 탄생한 것이 Med-PaLM 이다.
Med-PaLM은 다양한 의학적 질문에 답하는 문제에 높은 정확성을 보여준다. 논문에서는 100개의 의학적 질문에 대한 Med-PaLM의 답변과 인간 의사의 답변을 맹검 처리하여, 9명의 의사 패널이 평가해보았다. 그 결과 과학적 타당성(scientific consensus), 부적절/부정확한 내용(inappropriate/incorrect content), 정보 누락(missing content), 잠재적 위해도(possible harm), 편향(bias) 등 다양한 측면에서 인간 의사의 답변과 비슷한 수준을 보여준다.
후속 연구에서 개발된 Med-PaLM2는 의학적 질문에 답변하는 문제에서 Med-PaLM보다 더욱 개선된 성능을 보여준다 [5]. 장문(long-form) 질문-답변의 문제에서 Med-PaLM2는 의사에 버금가는 퍼포먼스를 12가지의 다양한 기준에 대해서 보여준다. 또한 이 연구에서는 의도적으로 적대적 질문(adversarial questions)' 데이터셋을 만들어서 모델을 테스트했다. 적대적 질문에는 약물, 정신 건강, 자살, 인종 등의 일반적 적대적 질문과 의료 접근성, 의료의 질, 사회적 요인 등 의료 형평성(health equity)에 특화된 데이터셋을 포함되었다. Med-PaLM2는 Med-PaLM에 비해서 적대적 질문에 대해 통계적으로 유의미하게 더 나은 답변을 보여준다.
이 연구에서는 Med-PaLM2와 의사의 답변을 1:1로 비교하였는데, 흥미롭게도 평가자를 의사 뿐만 아니라 일반인(layperson)으로도 테스트해보았다. 그 결과 대부분의 기준에 대해 Med-PaLM2의 답변이 의사의 답변에 비해서 더 우수하다고 평가되었다. 특히, 일반인 평가자들은 Med-PaLM2의 답변이 의사의 답변에 비해서 질문의 의도에 대한 답을 비슷한 수준으로 잘 내어놓으며, 오히려 더 큰 도움이 된다고 평가하였다.
또 다른 연구에서는 ChatGPT가 USMLE 문제 수준을 넘어서는 어려운 진단 케이스에 대한 감별 진단에도 우수한 성능을 보인다는 것을 보여주었다 [6]. 이 논문에서는 NEJM의 clinicopathologic conferences 에 나오는 케이스들을 활용했다. 여기에는 교육을 목적으로 병리학적으로 최종 진단이 내려진 어려운 케이스들이 소개된다. 2021년 1월부터 2022년 12월까지 NEJM에 소개된 70개의 케이스를 입력하여 ChatGPT로 감별진단을 진행해보았다.
분석 결과, ChatGPT가 1등으로 내어놓은 진단명이 정답일 확률은 39% (27/70)이었다. 또한 ChatGPT의 진단 목록 중에 정답이 포함되어 있을 확률은 64% (45/70)이었다. 또한 답변을 5점 척도로 평가하였을 때(감별진단 목록에 실제 진단이 포함되면 5점, 정확하지는 않지만 근접한 답이 포함되어 있으면 4점 등이고, 관계된 답이 전혀 없는 경우는 0점으로 정의) ChatGPT 답변의 중간값은 5점이었고, 평균값은 4.2점이었다. ChatGPT의 이러한 성능은 기존의 감별진단을 목적으로 개발된 인공지능과 유사하거나 더 좋은 성과를 보인 것이다.
그런가 하면, 온라인 포럼에 올라온 환자의 임상적인 질문에 대해서 ChatGPT가 의사에 비해서 더 양질의 공감력 높은 답변을 해준다는 보고를 한 연구도 있다 [7]. 이 연구에서는 미국의 레딧이라는 온라인 포럼에 올라온 환자의 질문과 의사의 답변 195개를 무작위로 추출하여 ChatGPT의 답변과 비교하였다. 답변은 맹검 처리하여 세 명의 의사가 평가하였다.
그 결과 평가자들은 ChatGPT의 답변을 의사의 답변보다 유의미하게 더 좋다고 평가했다. 총 585번의 평가 중에 78.6%는 ChatGPT의 답변이 더 낫다고 평가했다. 또한 ChatGPT의 답변의 질이 의사의 답변보다 유의미하게 더 높다고 평가했다. ChatGPT의 답변의 평점은 4.13점이었고, 의사의 답변은 평균 3.26점이었다. 또한 좋음/아주 좋음의 평가을 받은 비율은 ChatGPT는 78.5%, 의사는 22.1%로 3.6배 정도의 차이가 났다. 뿐만 아니라, ChatGPT의 답변은 의사의 답변에 비해 유의미하게 환자의 질문에 더 공감을 잘 하는 것으로 나타났다. ChatGPT 답변의 공감은 평점 3.65점, 의사의 답변은 2.15점으로 의사의 답변이 41% 낮았다. 공감력이 좋음/아주 좋음의 평가를 받은 비율은 ChatGPT가 45.1%인데 비해서, 의사는 4.6%로 9.8배 차이가 났다.
이와 같이 의학적인 질문에 답변을 하는 것 이외에도, 의사와 환자 간의 대화 기록을 바탕으로 EMR에 입력할 수 있는 메디컬 노트를 작성하기 위해서 LLM을 활용할 수 있다 [2]. OAP (Subjective, Objective, Assessment and Plan)와 같은 특정한 형식으로 노트를 정리할 수도 있고, 수가 청구 코드를 자동으로 넣거나, 처방 오더를 자동으로 낼 수도 있다.
관련하여 마이크로소프트가 인수한 뉘앙스에서는 진료실이나 원격진료에서 의사와 환자 간의 대화가 저장된 영상과 음성에서 메디컬 노트를 자동으로 정리해주는 인공지능을 서비스하고 있기도 하다. 기존에는 이러한 결과물을 인간 리뷰어가 검수하는 과정이 있었으나, 2023년 3월 뉘앙스는 GPT-4를 도입하여 전체 과정을 인공지능으로 자동화할 계획을 발표하기도 했다.
유사한 연구로, 영상의학 판독문을 ChatGPT를 통해 구조화된 양식으로 변환할 수 있음을 보여준 논문도 소개되었다 [8]. 영상의학과에서 판독문을 구조화된 포멧으로 레포팅하는 것은 의사들 사이에서 커뮤니케이션을 위해서 뿐만 아니라, 연구할 때 데이터 추출, 질 개선 등을 위해서 중요하다. 연구에서는 GPT-4를 활용해서 170개의 영어로된CT와 MRI 판독문을 구조화된 양식으로 자동 변환했다. 자동 변환의 첫번째 단계로 GPT-4에게 자연어 판독문에 기반해서 여러 양식(template) 중에서 가장 적합한 것을 고르라고 주문했다. 두번째 단계로 그 양식에 기반하여 판독문을 구조화해서 JSON 포멧으로 결과물을 내어놓으라고 명령했다.
그 결과 판독문을 일관성(consistency)과 정확성(accuracy) 측면에서 평가했더니, 변환은 완벽했다. 170개의 판독문 모두 오류 없이 JSON 파일로 변환에 성공하였다. 영상의학 판독문에 있던 모든 핵심적인 판독(key finding)을 정확하게 변환했고, 추가적인 정보가 더해지지도 않았다. 또한 모든 케이스에 모델은 적합한 양식을 선택하였다.
반면, LLM이 넘어야 할 기술적 한계도 있다. 소위 ‘할루시네이션’ 혹은 ‘환각’이라고 불리는 현상이 대표적이다. 챗GPT가 정확하지 않거나 전혀 엉뚱한 답변을 매우 그럴듯하게 생성하는 경우다. 특히, 사람의 생명을 책임지는 의료 분야에서 이러한 할루시네이션은 큰 문제가 될 수 있다.
또한 이런 인공지능을 어떻게 합리적으로 규제할 것인지도 골치아픈 문제다. 최근 연구에 따르면 챗GPT를 의료에 활용하는 경우 많은 국가에서 의료기기로 분류된다 [9]. FDA도 챗GPT를 의료기기로 규제하겠다는 방침을 밝힌 바 있다. 하지만 무한대에 가까운 입력과 출력이 가능한 인공지능의 정확성과 안전성을 어떻게 검증할 것인지는 식약처와 FDA를 포함한 전 세계 규제 기관들이 이제부터 고민해야 할 숙제다.
챗GPT를 비롯한 거대언어모델 인공지능은 ‘불의 발견’에 비견될 정도로 인류에게 큰 가능성을 열어주고 있다. 특히 이러한 인공지능은 의사와 환자를 도움으로써 의료를 혁신할 잠재력을 지니고 있다. 하지만 또 한편으로는 여러 기술적, 규제적 난제들이 남아 있기도 하다. 인공지능이 가진 잠재력은 극대화하고, 문제점들은 현명하게 해결해서, 의료의 미래를 열어갈 수 있기를 기대해본다.

