인공지능 기술의 발전과 4차 산업혁명 시대를 맞이하여 양질의 보건의료 빅데이터 구축과 활용은 미래 의료 산업 혁신을 주도하기 위한 핵심 과제이다. 대표적인 보건의료 빅데이터로는 전국민 건강보험 청구 데이터(claim data), 유전체 데이터(genomic data), 의료기관에서 진료 및 업무 과정에서 축적되는 전무의 무기록 데이터(Electronic Health Record data; EHR), 개인건강기기 또는 건강관리 앱으로부터 수집되는 개인의 생활습관 및 건강 관련 환자 유래 의료 데이터(Patientgenerated health data; PGHD) 등이 있다.
세계 각국의 정밀의료(precisionmedicine) 도입은 이러한 임상정보, 유전정보, 생 활습관 외에 환경 등의 데이터를 종합/ 분석하여 환자 개인의 특성에 가장 적합한 의료서비스를 제공하는 형태로 의료 패러다임을 변화시키고 있다. 예를 들어 영국의 UK Biobank 코호트 , 미국의 All of Us 연구 프로그램의 100만 명 정밀의료 코호트에서는 임상과 유전체, 생활습관 데이터를 통합하여 질병 진단과 치료, 예방과 관련된 연구를 지원하고 있다.
우리나라에서는 의료기관의 EHR임상 빅데이터를 중심으로 공통데이터모델(common data model; CDM) 형태로 의료 용어와 데이터 구조를 표준화하여 분산 데이터 네트워크를 통해 임상 빅데이터를 활용하기 위한 인프라 구축 중이다.
특히 산업통상자원부 사업으로 2018년과 2019년에 시작된 분산형 바이오 빅데이터 사업과 CDM 정밀의료 사업으로 국내 2차, 3차 의료기관들의 EHR 데이터에 대한 공통데이터모델 변환이 확산되고 있다. 이를통해 새로운 임상 근거를 도출하기 위한 다양한 임상 연구를 지원할 뿐 아니라, 산업계에서는 새로운 디지털 바이오마커의 발굴, 지능형 임상의사결정지원 시스템 개발, 스마트 임상시험 설계 지원 등이 개발될 예정이다.
의료기관의 EHR 빅데이터는 국내 EHR 시스템 도입이 15년 이상 지남에 따라 증가한 데이터 규모와 다양성으로 새로운 실세계 근거(real-word evidence)를 창출할 수 있는 빅데이터 자원으로서 더욱 부각되고 있다. EHR 빅데이터를 이용한 의약품 사용 패턴, 의약품의 시판 후 안전성 평가, 의료기술의 가치평가, 임상시험 후보 도출, 신약 개발 , 환자 수준의 예측 모델 개발 등 빅데이터 분석과 인공지능 기술을 접목한 연구개발이 활발하게 진행되고 있다.
그러나 EHR 빅데이터로 부터 신뢰성 있고 재현이 가능한 과학적 근거와 가치를 창출하기 위해서는 양질의 데이터 수집과 정제, 데이터 표준화, 다양한 외부 데이터 소스와의 연계, 비식별화 등에 여전히 많은 투자가 필요하다.
첫째, EHR 데이터에서 임상적으로 중요한 환자에 대한 평가 결과나 소견은 대부분 free-text 또는 반구조화된(semi-structured) 형태의 기록지에 저장되어 있다. 국내 비정형 의료 데이터에 특화된 자연어 처리 기술을 적용하기 위한 표준화된 용어 사전과 검증된 레이블링된 데이터 셋이 구축되어야 한다. 비정형 의료 데이터로부터 의미있는 정보를 추출하여 표준화하고 의료 데이터의 체계적인 품질관리를 통해 잘 정제된 의료 빅데이터 확보에 전력을 기울여야 한다.
둘째, 의료 데이터 표준화는 국내 의료기관들의 CDM 도입 확산으로 진단, 검사, 약물, 수술 용어를 중심으로 국제 표준 용어 체계를 기반으로 용어 표준화가 이루어지고 있다. 이에 더해 처치, 재료, 의료기기 및 장비 등에 대한 용어 표준화도 요구되며, 범국가적 차원의 표준화 가이드라인 개발과 지원이필요하다.
셋째, 정밀의료에서 요구되는 건강에 영향을 미치는 유전체, 생활습관, 사회환경적 결정요인 등에 대한 데이터 수집과 임상 데이터와의 연계를 위한 상호운용성 표준 인프라가 요구된다. 유전체,PGHD 등 다양한 종류의 외부 데이터 소스와 임상 데이터를 연계하기 위한 방안으로 HL7(HealthLevel 7) FHIR(Fast Healthcare Interoperability Resources) 표준을 이용한 연구개발이 이루어져야 한다.
넷째, 의료 빅데이터 구축과 활용에 있어 개인정보보호는 빠질 수 없는 해결 과제이다. 미국 의료정보보법(HIPPA)에서 규정하고 있는 18개의 개인식별정보 제거를 넘어 개인의 사전지식이나 데이터 간 결합을 통해 개인을 재식별할 수 없도록 방지하는 비식별화 기술에 대한 관심도 증가하고 있다. 다만 데이터의 보안과 활용이라는 두 가지 측면을 고려할 때, 구축된 데이터의 유형과 활용 목적과 적용하고자 하는분석 방법에 따라 use case별로 적정 수준의 개인정보보호 조치와 가이드라인이 개발되어야 할 것이다.
마지막으로 개인의 건강과 질병에 영향을 미치는 요인을 다각도로 분석할 수 있는 수준의 의료 빅데이터를 구축하기 위해서는 개인 주도의 건강 데이터 수집과 제공에 대한 열린 신뢰 문화와 관심 유도, 이를 지원하기 위한 인프라 확산에 국가적 차원의 전략 마련도 수반되어야 할 것이다.