Datathon 후기 1 – 임정 님

라인웍스는 지난 9월 20일부터 22일까지 국가임상시험지원재단(KONECT)에서 주최한 Korea Clinical Datathon 2019에 참가했습니다.

라인웍스 4인은 각기 다른 팀에서 다양한 역할로 Datathon에 참가했는데요. 다채로운 관점의 후기를 릴레이로 공유합니다.

0. INTRO → 바로가기
1. 임정, SQL 전문가(팀9) → 현재 글
2. 허신영, 데이터 사이언티스트(팀7) → 바로가기
3. 박근우, SQL 전문가(팀7) → 바로가기
4. 송치오, IT 전문가(팀14) → 바로가기

첫번째로 데이터분석그룹의 Data Analyst 임정 님의 후기를 공유합니다.


참여자

임정 (역할: SQL 전문가)

주제

B형간염 환자에서 약제에 따른 간암발생비교와 간암 및 합병증 발생 예측

코호트(Cohort) 정의

처음 B형간염 약을 사용하고 약 변경 없으며 암에 걸리지 않았던 환자 394명 중 대조군 354명과 실험군 40명

그림 1. Cohort 구성도(좌측:대조군, 우측:실험군)

임상적 의미와 비교검증

아주대 CDM은 ECG View(심전도를 측정한 환자) 데이터로 제한적인 환자 dataset을 가지고 있습니다. 따라서 일반적인 모델의 결과가 임상적 의미와 일치하는지 확인하는 과정을 거쳤습니다.

그림2. 환자의 정보와 검사수치의 Cox Regression 결과

단순 수치 해석만 하자면, 기준성별에 비해 다른성별의 위험도가 7.54배가 높다고 해석할 수 있습니다. 하지만 성향점수 매칭(Propensity Score Matching) 등 데이터 검증과정이 부족하기 때문에 변수선택만 참고하였습니다. 의사선생님 견해로 도출된 변수가 임상적으로 합리적이라고 생각하셨습니다. 따라서 분석의 Cohort로서 사용가능하다고 판단하셨습니다.

모델링

그림3. 모델들의 예측 결과

기본 모델을 돌려보니 Random Forest가 가장 우수한 예측력을 보였고 고전적인 Linear Regression보다 우수함을 확인할 수 있었습니다. 최종적으로 모델들을 합쳐 앙상블 모델을 만드려 했으나 시간 제한으로 인해 추가적인 결과를 내지 못하였습니다.

한계점과 느낀점

데이터의 한계점

프로젝트 진행전 데이터의 규모를 파악해야한다.

아주대 CDM의 경우 24만명의 환자를 가지고 있습니다. 초기 Cohort 를 구성해보니 대상군이 400명, 그 중 간암환자가 22명으로 매우 적었습니다. 이는 Data자체가 갖는 한계점으로 ECG를 찍은 중환자의 경우에만 수집을 했었기 때문임이 밝혀졌습니다. 이 과정에서 조작정 정의를 수정 할 것인가 진행 할 것인가에 의사결정비용이 많이 발생했습니다. 향후 미리 Cohort 규모를 파악한다면 보다 수월한 프로젝트 진행에 도움이 될 것입니다.

실제로 대회 내 멘토들이 방문하여 Cohort의 규모의 한계에 대하여 많은 의견을 나누었습니다. ‘MIMIC-III 데이터(이하 MIMIC)에서도 해당 주제를 가지고 진행하여 비교해보자’ 라는 의견이 있었습니다. 하지만 ① MIMIC은 굉장히 짧은시간 중환자실의 데이터이기에 장기간 Cohort분석에 적절치않으며, ② 국내의 B형간염 약제급여정책상 Cohort 분류가 용이 하기에 주제가 아주대 CDM에 적합하다는 점, 2가지를 고려하여 최종 분석이 진행되었습니다.
데이터의 한계를 확인하고 분석설계를 진행한다면 더 양질의 결과가 나왔으리라 생각합니다.

도메인 지식의 중요성

탐색적 데이터분석 과정에서, 도메인 전문가가 반드시 필요한다는걸 알게 되었습니다.
예를들면, B형간염 환자의 경우 의무기록 기준 약 450일 머무른 반면, 간암환자는 평균 150일 정도를 체류함을 확인하였습니다. 의사분들은 수치를 보고 곧바로 서울대 등 다른 상급병원으로 이송되었다는 것을 판단하셨습니다. (더하여 아주대에는 간암 전문가가 없는 것도 이유로 꼽으셨습니다) 이로서 도메인의 전문가의 중요성도 알게되는 경험이였습니다.

협업의 중요성

SQL에서 재현성있는 코드의 중요성을 알게되었습니다.
대회 특성상 SQL전문가들이 병렬로 동시에 데이터를 추출해야하는 구조입니다. 따라서 코드와 테이블 공유의 방법을 생각해야 했습니다. 예를 들면 임시테이블을 생성하지말고 with 절을 통해 cohort정의하는 논리를 정리해놓는게 매우 중요하다는 것을 깨닫게 되었습니다. 이 방법은 모(母)데이터만 동일하다면 with절을 통해 같은 결과값을 볼 수 있기 때문입니다.

SQL전문가와 Data Scentist의 협업의 중요성을 알게 되었습니다.
데이터 에서 ‘사망날짜’ 열을 추출하게 되었습니다. Data Scientist 분이 사망날짜가 있다면 1 없다면 0 으로 변환한 열을 추가해달라하셨습니다. 추가요청의 이유를 물어보니 Cox 분석의 경우 사망 여부가 0,1로 입력되어야 했던 것이였습니다.

물론 R, Python의 DataFrame 등을 사용하여 해당 컬럼을 추가로 만들수 있습니다. 하지만 SQL전문가가 한번에 처리하는 것이 속도면에 SQL이 빠를 뿐더러, 데이터를 받아보는 사람이 추가 가공을 하게 되는 비용이 발생하기 때문입니다. SQL역할자로서 Data Scientist가 원하는 데이터를 잘 ‘말아주는’ 것이 중요하다는 걸 알게 되었습니다.

대회수상 기준

주로 수상권에 오른 팀의 연구를 살펴보면, 심사위원들은 각 팀이 의료데이터를 어떻게 보는가에 중점을 놓고 평가를 진행한 것 같습니다.
대부분 의사선생님들이 자신이 관심있는 연구 주제를 가져왔습니다. 하지만 연구주제 중 다수는 건강보험심사평가원 데이터 또는 건강보험공단 데이터로 할 수 있는 연구라고 평가한 듯 합니다.
반면에 데이터를 다루는 방법과 관점이 새로운 팀에게는 가점을 준 것 같습니다. 8번 팀의 경우 CDM와 MIMIC을 통합학습(Federated Learning)방법을 구현, 개인정보 보호법에 접촉되지 않고 모델을 학습시키는 방법으로 비교하여 수상을 하였습니다.

총평

짧은시간 다른역할들과의 협업을 통해 성장하고 내가 성장할 수 있는 다음목표를 설정할 수 있는 좋은 데이터 톤이였습니다. 현재까지는 의료데이터 주제 중 가장 좋은 대회인 것같습니다.

No comments yet.

Leave a comment

Your email address will not be published.