2017년 1월 18일 수요일

헬스케어 사례 연구 - 빅데이터와 연계


출처 뉴딜코리아 홈페이지
원문 http://cafe.naver.com/rapid7/2747

헬스케어 사례 연구 - 빅데이터와 연계


헬스케어는 개인의 의료 데이터를 생성하기 때문에 빅데이터 관점의 접근이 반드시 필요하다. 게다가 치료 중심의 의료 서비스에서 예방 중심의 헬스케어로의 변화는 예측하기 어려울 정도의 빅데이터를 생성하고 있다.

분당 서울대병원에서는 빅데이터 연구원을 설립하여 다양한 의료 서비스에 접목시키고 있고 괄목할 만한 효과를 보이고 있다.

이번 회에서는 빅데이터 기반의 헬스케어에 대해 살펴보도록 한다.

예방 중심의 헬스케어 서비스에 빅데이터가 차지하는 역할이 무엇인지 이해하기를 기대한다.


사례 연구 전 확인 사항


● 빅데이터의 활용

빅데이터는 ICT 뿐만 아니라 다양한 산업 분야에서 최대 경쟁력으로 인식되고 있고, 제대로 된 자료 수집과 분석이 이루어진다면 재해, 의료 등의 서비스에서 안전과 질 높은 삶을 영위하도록 도와줄 수 있다.

기존에 사용하던 데이터는 미리 정의된 기준에 따라 수집, 관리되었기 때문에 정보 가치가 제한적이었다.

빅데이터는 무제한으로 수집할 수 있어 자료의 양과 복잡성은 매우 높지만 필요에 의해 수집된 데이터이기 때문에 기존 데이터보다 정보의 질은 높다.

이렇게 수집된 데이터를 목적에 따라 분석하여 정보를 정리하면 정보의 질은 높고 복잡성은 낮은 정제된 빅데이터가 된다(그림1).


< 그림 1> 데이터의 복잡성과 질의 관계



데이터를 수집해서 바로 활용할 수는 없다. 다양한 매체를 통해 데이터를 수집하고, 불필요한 데이터를 걸러내면서 적절한 기준에 맞춰 정제를 한다.

그리고, 데이터를 분석하면서 의미 있는 지식으로 정보화 또는 시각화 한다(그림2).

<그림2> 빅데이터의 활용 단계


헬스케어 서비스에서 목표 달성을 위해서는 어떠한 전략으로 서비스를 구성해야 하는지 빅데이터 플랫폼을 통해 얻고 있다(그림3).

아래 그림은 가독성을 위해 큰 그림으로 표시되었지만 실제 서비스를 위해서는 데이터의 수집, 정제, 분석 방법과 지식화된 데이터를 어떻게 시각화할 것인지에 대한 방법 등을 세부적으로 더 정의되어야 한다.

                                              <그림3> 헬스케어 빅데이터 플랫폼의 예시


헬스케어 빅데이터의 정제와 분석

원하는 데이터를 얻기 위해서는 수집된 데이터를 정제하는 과정을 거쳐야 한다. 빅데이터에서 가장 중요한 작업 중의 하나로, 정제가 제대로 이루어지지 않을 경우 데이터 구성이 일관되지 않아 분석을 할 수 없게 된다.

빅데이터 정제는 다양한 매체로부터 데이터를 수집하여 원하는 형태로 변환한 후 원하는 장소에 저장하고 저장된 데이터의 품질을 확인, 관리한다(그림4). 수집된 데이터는 원시 데이터 형태지만 빅데이터 정제를 거치면 구조를 갖추게 된다.

                                                         <그림4> 빅데이터 정제

저장된 빅데이터에서 의미 있는 정보를 얻기 위해서는 빅데이터를 효과적으로 분석할 수 있는 방법이 필요하다. 빅데이터 분석은 분석 계획 수립, 분석 시스템 구축, 분석 실행의 3 단계로 수행된다(그림5).

                                                         <그림5> 빅데이터 분석

그림5를 살펴보면, 빅데이터 분석의 목적을 정의하고 절차, 기법 등 분석 계획을 수립하고, 분석에 필요한 하드웨어와 소프트웨어의 구성 파악을 통해 자체적인 분석 시스템을 구축할 것인지 외부 시스템도 활용할 것인지 결정한 후 분석을 실행하게 된다.

빅데이터 분석의 목적은 숨겨진 구성과 패턴, 빅데이터 간의 연관성을 찾아내는 것이고, 이렇게 찾아낸 분석 결과를 바탕으로 비즈니스 의사결정을 하게 된다. 비즈니스 의사결정에는 최적의 대안을 선택할 수 있도록 근거를 제시하는 것이 중요한데 빅데이터 분석은 이러한 근거를 만드는데 매우 중요한 역할을 한다.

헬스케어 빅데이터의 약 80%는 비정형 데이터로 알려져 있다. 2020년까지 2015년 기준으로 약 15배 이상의 헬스케어 빅데이터가 쌓일 것으로 IDC에서 전망하고 있어 수집된 데이터를 어떻게 효율적으로 분석할 것인지에 대한 연구가 계속되고 있다. 최근에는 IBM과 같은 글로벌 기업을 중심으로 인공지능 기술을 이용해 방대한 빅데이터를 정제하고 분석하려는 노력이 이루어지고 있다(그림6).

<그림6> 인공지능을 활용한 헬스케어 데이터의 정제와 분석




 헬스케어 빅데이터의 해석과 활용

해외에서는 헬스케어 빅데이터를 활용한 사례로 IBM이 개발한 슈퍼컴퓨터 왓슨(Watson)이 있다. 왓슨은 2012년 미국의 퀴즈 쇼에서 우승한 이후 빅데이터를 활용한 최적의 암 치료법 도출에 활용되었고, 이를 위해 MSKCC(Memorial Sloan-Kettering Cancer Center) 등의 병원과 협력하여 폐암, 유방암, 백혈병 분야 중심으로 치료 서비스를 준비했다.

최근에는 왓슨의 치료 정확도에 대한 연구결과에서 82.6%의 정확도를 보이고 있고, 우리나라의 종합병원에서도 진단이나 치료 가이드 역할을 하고 있다. 또한, 단순히 의료 데이터를 수집하여 분석 결과를 제공하는 것뿐만 아니라 좀 더 의사에 가깝게 다가가기 위해 또다른 빅데이터 분야의 학습을 하고 있는 것으로 알려져 있다(그림7).

<그림7> IBM 왓슨의 확대 방향


출처: IBM

방대한 빅데이터의 양과 거의 대부분이 비정형 데이터인 헬스케어 서비스의 빅데이터는 수집한 데이터를 해석하는 방법에 따라 크게 3가지로 분류할 수 있다.

첫번째는 데이터 자체와 그 패턴에 의미를 부여하는 것이다. 가장 일반적인 경우로 기본적인 운동량, 식사량, 취침량 등처럼 병원에 방문하면 의사가 문진하는 종류와 같이 규칙적이고 일반적인 데이터를 수집해 해석한다. 의료계에서는 이러한 데이터를 바로 해석하고 활용이 가능하다고 보기 때문에 되도록 많이 수집해서 의미 있게 해석하려는 경우가 늘어나는 추세다.

두번째는 수집한 데이터를 확대해서 재해석하는 것이다. 특정 지역에 고열과 기침을 하는 사람이 늘어난다면 그 지역에 독감이 유행한다고 생각할 수 있다고 해석할 수 있는 것이다. 기존 의료 서비스와는 다소 차이가 있지만 새로운 의료 서비스를 추가할 수 있는 여지가 많기 때문에 헬스케어 서비스에서 많이 활용하고자 하는 형태다.

두번째 해석 방법도 여러가지로 나눌 수 있는데, 수집된 데이터의 문맥(Context)를 파악하는 것이다. 일반적인 상황을 파악하여 해석하는데 용이한 방법이다. 또 다른 유형은 여러 사람의 데이터를 수집해서 종합적으로 판단하는 방법이다. 앞에서 얘기한 유행성 감기와 같이 다양한 증거를 수집해 결론을 내리기 때문에 예측에 많은 도움을 줄 수 있는 형태다. 이 외에도 수집된 데이터가 가지고 있는 다른 의미를 찾아내는 방법이다. 지문을 인식해 사람을 식별하는 것과 같이 상호 연관성을 찾아내는데 유용하다.

마지막 세번째 해석 방법은 각 데이터의 의미를 분석하여 상관관계나 새로운 의미를 찾아내는 것이다. 의료 서비스인 경우 원인을 찾아 질병을 진단하거나 왜 질병이 발생했는지를 추정할 때 유용하게 사용될 수 있다.

빅데이터가 큰 의미를 가지기 위해서는 의미 있는 데이터가 지속적으로 많이 필요하다. 헬스케어가 빅데이터 연구에 주목받는 가장 큰 이유는 개인별 의료 데이터가 24시간, 매일 수집하면서 빅데이터 연구를 한층 더 높여줄 수 있다는 기대 때문이다. 이러한 기대를 충족하기 위해서는 체계적인 분석이 가능하고 작은 요소에도 반응할 수 있는 세련된 분석 방법이 필요하다. 최근 헬스케어나 빅데이터 연구자들은 인공지능의 한 분야인 딥러닝 분야를 계속 주목하는 이유라 할 수 있다.



사례 연구

IBM의 Watson

출처: IBM Watson Group

빅데이터 기반의 의료 서비스하면 IBM의 왓슨이 떠오른다. 최근 IBM을 비롯하여 마이크로소프트, 애플, 구글, 페이스북 등 글로벌 IT 기업들은 인공지능의 딥러닝 기술에 열을 올리고 있다.

IBM은 코그너티브 비즈니스(Cognitive Business) 전략 아래에서 인공지능 플랫폼 왓슨을 다양한 비지니스에 접목시키고자 하고 있다. 코그너티브 비즈니스는 인지 기술 기반 사업으로 비즈니스에 필요한 앱, 디바이스, 프로세스, 시스템 등에 사고 인지 컴퓨팅을 적용시키는 것이고, 인지 컴퓨팅은 인공지능과 머신러닝이 결합되어 컴퓨터가 인간의 언어로 상호작용하는 기술이다.

IBM에서는 2020년이 되면 매일 인당 143GB를 생성하며 그 중 85%가 비정형 데이터일 것으로 예측했다(그림8).

<그림8> 개인의 빅데이터 생성 비율

 

왓슨은 기존 검색이나 답의 한계를 초월한 의사결정을 지원하는데 그림9에서 보는 것처럼 데이터베이스에 저장된 데이터를 조회하는 수준이 아니라 데이터를 이해하고 연관 있는 것들을 추론, 분석하는 것은 물론 신뢰도까지 계산해서 함께 전달하는 것이 특징이다(그림10).

<그림9> 왓슨의 기존 검색엔진과의 차이점

 
<그림10> 왓슨의 질문에 대한 답의 추론 예



왓슨은 인지 컴퓨팅을 위해 다양한 종류의 빅데이터를 수집하여 분석, 통합하고(Ingest), 과학적 실체와 관계에 대해 학습하고 이해한다(Learn). 이에 대한 결과를 바탕으로 전문가 집단과 교육을 통해 학습을 하고(Test), 학습 결과를 통해 판단하면서(Experience) 성장하고 있다.

<그림11> 왓슨의 데이터 수집 및 분석(Ingest)
 


그림11에서 보는 것처럼, 왓슨은 수분 안에 수백 가지 이상의 데이터 소스를 연결하고 분석하여 통찰력을 발견하도록 되어 있다. 이렇게 수집하고 분석, 통합한 데이터를 바탕으로 심도 깊은 자연어 이해 기술로 데이터 간의 연관 관계를 찾아 이해한다(그림12).

<그림12> 왓슨의 학습과 이해(Learn)


 
이러한 과정을 통해 더 심도 있는 분석을 시작하고 문맥을 이해하면서 의미를 정리해 나간다. 이렇게 정리된 의미에 대해 스스로 근거를 만들어 뒷받침을 하는데 가설 평가를 위해 수백 개의 알고리즘을 동시에 수행하여 최적의 근거를 찾아낸다(그림13).

<그림13> 왓슨의 근거 수립(Test)



의료 데이터 수집을 통해 이렇게 만들어진 이론과 근거는 새로운 경험으로 정리되어 왓슨의 능력으로 재활용된다. 왓슨은 수분 안에 수천 개의 문서와 문헌을 분석해 획기적인 통찰력을 제공할 수 있다(그림14).

<그림14> 왓슨의 이론 정리(Experience)


위와 같은 방법으로 왓슨은 인지 컴퓨팅을 적용해 암 치료의 혁신을 일으키는 것으로 주목받고 있으며 우리나라에서도 가천대학교 길병원과 손잡고 국내 최초로 의료 서비스를 제공하고 있다.


기대 효과와 결론

최근에 주목받는 ICT 기술 중에서도 딥러닝과 빅데이터는 가장 뜨거운 이슈로 꼽을 수 있다. 두 기술 모두 이미 오래 전에 알려진 이론들이지만 뒷받침이 되는 기술들의 부족으로 지금에서야 각광을 받고 있지만 거의 모든 분야에서 활용이 가능할 정도여서 빠른 속도로 적용되고 있다.


특히 딥러닝과 빅데이터는 상호 보완적인 기술이기 때문에 앞으로도 많은 적용이 기대되고 있다. 또한, 헬스케어는 쉼없이 생성되는 의료 데이터와 지속적인 경험치를 축적하며 서비스해야 하는 의료 서비스의 특성상 딥러닝의 빅데이터에 최적화된 분야라고 볼 수 있다



댓글 없음:

댓글 쓰기