최근 몇 몇 컨퍼런스에 낼 초록을 작업하고 있다. 몇 군데는 이미 제출했는데, 한 군데에서는 리비전이 들어왔고 나머지는 작업 중이거나 리비전을 기다리는 중이다.

지금 내가 몸 담고 있는 병원은 2차병원이다. 아무래도 펀딩도 많고 연구가 강조되는 3차병원에 비하면 지원이 적을 수 밖에 없다. 가장 아쉬운 부분은 데이터다. 데이터를 얻을 수 있는 창구도 방법도 아무래도 부족하다.

이런 환경에서 가장 유용하게 사용했던 것이 공공 데이터이다.

공공 데이터의 유형이나 종류는 다양하다. NIH에서는 이런 공공 데이터들을 쉽게 찾아 볼 수 있도록 따로 모아놓은 페이지도 있다.


NIH 공공 데이터 리포지토리 페이지


이렇듯 공공 데이터 저장소는 다양하지만, 가장 대표적인 공공 데이터를 뽑자면 MIMIC 데이터를 뽑을 수 있다. 내가 가장 유용하게, 또 자주 사용한 공공 데이터이기도 하다.

MIMIC 데이터셋은 미국 베스 이스라엘 병원에서 2000년부터 2019년까지 입원한 환자들을 대상으로 수집된 데이터로, 최신 버전인 MIMIC-IV에는 약 20만 명의 환자 정보가 포함되어 있다. 모든 데이터는 철저히 익명화 처리되었으며, 이름과 같은 개인 식별 정보는 물론, 입원일자와 생일 등도 무작위로 섞여 있어 환자의 나이를 보존하는 방식으로 보호된다. 전자의무기록(EHR)을 통째로 가져온 것과 같다. 당연히 엄청 방대하고 용량도 엄청 먹는다! (SSD를 살 좋은 핑계가 되었다 😊)

어쨌건 이처럼 익명화된 방대한 데이터를 무료로 분석할 수 있다는 것은 연구자들에게 큰 이점으로 다가온다. 예를 들어, 필자는 한 컨퍼런스에 제출할 초록으로 체액 과다 상태를 감지할 수 있는 알고리즘을 개발하고자 했다. 체액 과다는 폐부종, 호흡 곤란, 하지의 오목부종 등을 유발하며, 주로 임상적으로 진단되는데, 이를 처치하는 과정에서 주로 이뇨제가 사용된다. 그러나 체액 과다는 다양한 임상 양상을 보이며, 진단 코드에 항상 포함되지 않기 때문에 데이터베이스에서 어떤 환자가 체액 과다 상태였는지를 판별하는 일은 쉽지 않다.

필자가 생각한 한 가지 방법은 MIMIC 데이터에 포함된 약물 투약 기록을 활용하는 것이었다. 체액 과다는 여러 임상 양상을 보이지만, 해결 방법은 명확하다. 만약 말기 신부전(ESRD) 환자라면 투석을 통해, 소변이 가능한 환자라면 이뇨제를 통해 해결할 수 있다. 그래서 응급실 방문 후 일정 시간 내에 주사로 이뇨제를 처방받은 환자군을 체액 과다 상태로 분류해 보았다. “이거 너무 임의적인 기준 아니야?”라고 물어본다면, 맞다. 그러나 응급실에서 빠르게 처치된 이뇨제가 있다면, 그만큼 긴급한 상황, 즉 체액 과다 상태였을 가능성이 높다고 판단한 것이다.

이 과정에서 MIMIC 데이터의 디테일이 큰 도움이 되었다. 앞서 언급한 것처럼 각 환자의 입원 시간과 그에 연동된 약물 투약 시간 등이 전부 정리되어 있기 때문이다. 비록 여러 한계점 때문에 이 접근법을 포기하고 다른 방식으로 방향을 틀었지만, MIMIC 데이터의 질에 대해서는 감탄하지 않을 수 없었다. 입원 시간, 약물 투약 기록, 용량, 시간까지 방대하게 정리된 데이터를 접하면서 느낀 감동이란… 과장 좀 보태 눈물이 날 지경이었다 흑흑


사실 내가 가장 활발하게 사용한 데이터가 MIMIC 데이터라 어쩌다 보니 MIMIC 데이터에 대한 소개만 왕창 하게 되었는데, MIMIC 데이터 외에도 활용할 수 있는 공공 데이터는 많다. MIMIC이 포함된 PhysioNet 같은 플랫폼만 봐도 다양한 공공 데이터를 제공하고 있어, 연구자들이 무궁무진한 가능성을 탐구할 수 있다.

이 외에도 몇 가지 다른 예를 들어보자면..


N3C (National COVID Cohort Collaborative)는 미국 전역에서 수집된 COVID-19 관련 임상 데이터에 관한 데이터베이스이다. 연구자들은 특정 조건을 충족할 경우 무료로 접근할 수 있지만 개인정보 보호를 위해 데이터 사용 계약(Data Use Agreement, DUA)이 필요하며, 연구자는 소속 기관을 통해 접근 권한을 신청해야 한다. 이 데이터는 특히 COVID-19 연구에 있어 중요한 자원으로 활용되고 있긴 하다. 워낙 방대해 다른 용도로도 사용 될 수 있을 거 같기는 한데, 나도 컨퍼런스에서 쓰는 거만 보고 제대로 파 보지는 못해서 얼마나 가능할지는 잘 모르겠다.

또 다른 예로, UK Biobank는 50만 명의 영국 인구로부터 수집된 유전자, 건강, 생활 습관 데이터를 포함한 방대한 생물의학 데이터베이스를 제공한다. 이 데이터에 접근하려면 연구자는 신청 절차를 거쳐야 하며, 연구 프로젝트의 범위에 따라 일정한 비용을 지불해야 한다. UK Biobank는 전 세계 연구자들이 다양한 질병 연구를 수행하는 데 매우 중요한 역할을 하고 있다. 학생이라면 500불에 데이터 엑세스가 가능한데 난 가난한 레지던트라… 명확한 연구주제가 잡히고 다른 데이터셋으로 진행한 연구에 진척이 있어 external validation이 매우매우 필요한 상황이라면 고려 해 볼 거 같다. UK BioBank를 사용한다, 좀 멋있지 않나?

물론 N3C와 UK Biobank 외에도 연구자들이 접근 권한을 얻거나 비용을 지불해야 하는 공공 데이터들이 많이 존재한다. 이러한 데이터셋들은 주로 방대한 양의 임상 데이터, 유전정보, 또는 생활 습관 데이터를 포함하고 있어 나와 같이 양질의 데이터가 고픈 사람들에 있어 중요한 자원이 된다. 공공 데이터는 연구의 민주화를 이루는 중요한 자원이며, 더 많은 연구자들이 접근할 수 있도록 문이열려 있는 셈이다. 앞으로 더 많은 공공 데이터가 제공되기를 빌어본다. 이런저런 통계 돌리고 놀기 쉽도록!