“의료빅데이터의 80% 이상은 형태와 구조가 복잡한 비정형데이터로 구성돼있다. 개인맞춤형 의료서비스 개발을 위해서는 데이터 표준화와 정제과정이 반드시 필요하다”
서울대학교 의료빅데이터센터 김석화 센터장은 “비정형데이터는 숫자 데이터와 달리 그림이나 영상, 문서형태의 데이터로, 구조가 정형화되지 않아표준화와 정제과정이 까다롭다”며“센터는 우선 비정형데이터의 표준화 및 정형화 기술을 개발하는데주력할 계획”이라며 이같이 밝혔다.
서울대학교 의료빅데이터연구센터는 9월 7일,ITRC 지원 사업 기관에 선정된 것을 기념하고 센터 개소를 알리기 위해 학계와 산업계 전문가를 연자로 초청해 심포지엄을 진행했다. 이날 심포지엄은 ▼의료빅데이터 및 인공지능 연계, ▼의료빅데이터 산업화를 주제로 진행됐다. 이 중 심포지엄 두번째 주제인 ▼의료빅데이터 산업화 세션 중 라인웍스 조용현 대표의 ‘의료빅데이터의 현재 상황과미래 가치’ 발제를 소개한다.
"빅데이터는 앞으로의 일을 예측하는 것이 아니라,
현재 어떤 일이 일어나고 있는지 알아채고, 가설을 빠르게 검증해
변화를 만들어 갈 수 있게 돕는 지침이다."
4차산업혁명의 영향으로 ‘정밀의학’이 발전하고 있다. 정밀의학의 발전은 의료데이터에 기반을 두기에 최근 들어 의료데이터를 생성, 수집, 활용하는 산업 역시 성장하고 있다.
라인웍스 조용현 대표에 따르면 의료빅데이터 규모는 2020년이 되면 2,314 엑사바이트에 달할 것으로 추정되고, 이는 연평균 72.7%의 성장으로 전 세계 일반데이터 성장률 56%보다 16.7% 규모가 크다. 또한 미국 기준으로 의료데이터가 본격적으로 질병예방, 의약품 품질관리 등에 사용될 때, 의료서비스 시스템 혁신으로 생기는 가치는 약 470조 원에 달할 것으로 예상된다.
조용현 대표는 이날 발제에서 의료데이터 중 Claims와 EHR데이터를 중심으로 데이터의 산업적 활용을 소개했다. 우리나라는 건강보험체계가 의무가입제, 당연지정제로 Claims데이터는 건강보험심사평가원에서, EHR데이터는 각 병원에서 관리하고 있다.
먼저, Claims데이터는 질병정보와 약품처방, 의료비용 등을 내용으로 한다. 이를 통해 데이터 사용자는 국내 의료계 사회경제적인 규모를 측정할 수 있다. 한편 EHR데이터는 병원 내에 쌓이는 데이터로 연구, 진단, 신체 적용사례 등 수치와 결과정보에 초점을 맞춰 모은 데이터다.
라인웍스는 심평원의 청구명세서를 기반으로 의료 처방정보 데이터를 분석해서 활용하고 있다. 조 대표는 “의료명세서에는 입원날짜, 성별, 질병코드, 복용한 약물 등이 나타난다”며 “1년에 14억 건 정도 데이터가 쌓이는데, 의료데이터를 활용해 빅데이터서비스 또는 인공지능 의료서비스를 만들려면 목적하는 정제된 데이터 추출 기술이 필요하다”고 강조했다.
의료데이터의 활용을 위해, 심평원의 Claims데이터로 정제된 데이터를 추출하려면 원천데이터를 자유롭게 탐색하고 확인해볼 수 있는 시스템이 필요한데, 현재 의료명세서 데이터는 양이 너무 많고 무슨 내용을 담고 있는지 알수 없는 한계를 가지고 있다는 설명이다.
라인웍스에선 방대한 양의 데이터를 정제하고 자유로운데이터 탐색을 할 수 있게 데이터레이크를 개발했다. 이를통해 사용자는 목적에 맞춰 빅데이터 알고리즘을 스스로 설계하고 분석해 활용할 수 있다.
일례로 'MDwalks'는 의료 Claims 데이터를 분석해 의료처방 정보 데이터를 사용자에게 제공한다. 조용현 대표는MDwalks로 국내 의약품과 치료 재료의 처방 정보, 고시정보, 연결 분석 등의 다양한 분석도구를 통해 맞춤형 분석 리포트 등 수요에 맞는 정보제공이 가능하다고 말했다.
MDwalks 중 의료명세서 데이터와 지역 기준 데이터서비스를 연계한 ‘메디맵’은 인구수 대비 의료기관 밀집도 데이터와 의료기관 접근성 데이터를 제공한다. 메디맵을 활용하면 전국의료기관 개업·폐업 현황데이터, 서울시 치과의원 밀집도, 강원도 산부인과 밀집도 등을 파악할 수 있다. 조 대표는 메디맵을 의료데이터 지도 서비스로 확장 개발할 예정이라고 말했다.
의료명세서 데이터의 다른 활용으로는 의약품 데이터서비스 연계를 들 수 있다. ‘트렌즈 팜’은 의약품주성분-진단-질병을 연결한 그래프를 제공한다. 라인웍스는 건강보험 청구명세서에서 모든 의약품 기준으로 코호트 분석을 수행하고 데이터 페이지를 개발했다. 이를 통해 산업계 사용자는 의약품 총 사용량, 시장크기를 분석할 수 있고, 복합제·신약 기반 데이터 분석을 확인할 수 있다. 또한 질병에 대한 의약품 처방패턴과 의약품이 사용되는 상병과 동시에 빈번하게 같이 처방되는 의약품 네트워크 등을 분석한다.
조 대표는 “현재 MDwalks는 1억 건의 실제 의료명세서 표본 데이터 기반 분석과 직관적인 연도별 사용량 시각화 그래프를 제공한다”고 말했다. 제공정보는 구체적으로 처방금액과 건수, 원내·원외, 입원·외래, 지역, 상병, 진단과 등 다양한 기준의 분석 정보라고 덧붙였다.
이러한 데이터 분석 시스템은 크게 시장점유율, 의료 사용 정보 연결 분석에 사용된다. 이는 국민 전체를 대상으로 설정한 표본추출데이터로 신뢰할 수 있는 데이터 분석이 가능하고, 의료 시장 규모와 처방 변화 추이 등을 별도의 기술 없이 단순한 조작만으로 확인할 수 있는 장점이 있다.
한편, EHR데이터는 심평원 데이터에 비해 조금 더 클리니컬하다. 환자방문정보, 의료시술 정보, 랩테스트, 클리니컬 노트 등을 포함하는 데이터 특성상 환자 임상적이고, 논문 관련된 연구데이터도 많다. 조 대표는 EHR데이터를 ‘땅속에 묻힌 보물’로 비유하며 “파봐야 가치를 알 수 있을 것”이라고 말했다. EHR데이터가 Claims데이터에 비해 규모가 훨씬 큰 만큼 무궁무진한 가치가 있지만, 규모가 방대하고 병원마다 다른 복잡한 형태라 표준화 및 정제 작업이 시급하다는 설명이다.
EHR데이터는 Electronic Health Records로, 의료기관에서 발생하는 환자에 대한 모든 기록을 데이터화 한 것이다. 조용현 대표에 따르면, 현재까지 EHR데이터를 병원내에서 제대로 분석하고 활용하고 있는 곳은 하나도 없다. EHR데이터는 본래 의료기록을 저장해두기 위해 생긴 데이터로, 빅데이터 분석을 하거나 기계학습으로 인공지능을 만들기 위한 데이터가 아니기 때문이다. 따라서 EHR데이터로부터 인공지능 의료데이터 서비스를 만들거나 빅데이터 서비스를 만들려면 정제된 데이터 생성은 반드시 필요하다.
EHR데이터 추출과 정제는 필요한 목적의 데이터를 추출하고 주요 의료데이터들을 시계열로 연결하는 것에서시작한다. 데이터 탐색을 위한 첫 단계는 모든 환자 방문 패턴의 타임라인을 만드는 것이다. 그다음으로 개별 환자 방문 패턴을 응급, 외래, 입원 등의 데이터를 구분해 내원 원인이 된질환 등과 접목한 개인 타임라인을 만들고, 개별 환자 의료데이터와 이벤트 타임라인을 구축한다.
이렇게 데이터 탐색이 준비되면, ‘예측모델’을 생성하기 위해 목적을 라벨링하여 학습데이터와 검증데이터를만든다. 데이터 라벨링과 딥러닝(기계학습)을 통해 이를통해 사용자는 환자의 30일 내 재방문 확률, 의료 행위 효과예측 등을 할 수 있다.
라인웍스의 MDwalks EXI는 환자 재입원 예측 리스트를 제공한다. EXI는 딥러닝을 통해 각 입원환자들의 현재데이터 기준으로 퇴원했을 시에 30일 내에 재입원 확률 예측값을 제공한다. 또한 환자데이터를 시각화해 한눈에 확인할 수 있다. 각 환자의 방문패턴, 진단, 검사 등의 데이터를 탐색할 수 있는 페이지를 제공한다. 그리고 의료진의 의료행위의 효과를 예측할 수 있다. EXI는 환자의 현재데이터 이후 추가 의료행위, 검사, 투약·처방 등의 데이터를 임의로 더해본 후 미리 환자의 결과를 예측 할 수 있는 정보를 제공한다.
조용현 대표는 이날 ‘의료빅데이터의 현재 상황과 미래가치’ 발제를 마치며 “의료보건 생태계의 수요와 공급, 비용에 대한 정교한 분석은 데이터시스템 설계로 가능하다”며 “데이터는 도구이지 그 자체로 가치 있지 않기에 빅데이터 응용서비스, 인공지능 응용서비스로 필요한 기능을 지속적으로 제공해야한다”고 말했다. 아울러, 의료빅데이터의 가치 발견을 위해서 탐색적 데이터 분석(EDA)을 시작할 것을 제언했다.
본 글은 클리닉저널 10월호에 게재되었습니다.