Datathon 후기 3 – 박근우 님

라인웍스는 지난 9월 20일부터 22일까지 국가임상시험지원재단(KONECT)에서 주최한 Korea Clinical Datathon 2019에 참가했습니다.

라인웍스 4인은 각기 다른 팀에서 다양한 역할로 Datathon에 참가했는데요. 다채로운 관점의 후기를 릴레이로 공유합니다.

0. INTRO → 바로가기
1. 임정, SQL 전문가(팀9) → 바로가기
2. 허신영, 데이터 사이언티스트(팀7) → 바로가기
3. 박근우, SQL 전문가(팀7) → 현재 글
4. 송치오, IT 전문가(팀14) → 바로가기

세번째로 데이터분석그룹의 Data Scientist 박근우 님의 후기를 공유합니다.


참여자

박근우 (역할: SQL 전문가) 

주제

조기 치료가 필요한 당뇨성 신장질환 환자 분류 (허신영 님과 같은 팀)

후기

  • CDM 데이터 맛볼수 있는 기회

건강보험심사평가원의 환자표본자료나 건보공단 맞춤형연구DB 등의 데이터를 다루는 연구를 해본 적은 있지만, CDM 데이터를 다루어 연구를 진행해본 것은 이번이 처음입니다. 이번 데이터톤에서 팀원들과 함께 CDM 데이터로 코호트를 구축했고, 이 과정을 통해 데이터의 성격과 구조에 대한 이해도가 높아졌습니다. 앞으로 CDM 데이터를 학습해 더 가치있는 연구결과를 만들어 가고 싶습니다.

  • IT 지식 기반 데이터사이언티스트와 통계 지식 기반  데이터사이언티스트 간의 관점 차이

머신러닝 모델링을 할때 Feature를 설정하는 방식이 통계 모형을 적용할 때 변수를 설정하는 방식과 서로 다르다는 것을 직접 경험할 수 있었습니다. 보통 통계 모형에서는 개개의 변수가 매우 중요한 의미를 갖는데 비해 머신러닝 모형에서 Feature들은 모형 성능을 높이기 좋은 방식으로 설정되는 것처럼 보였습니다.

  • 도메인(의료) 지식의 중요성

데이터 분석가는 본인의 전문분야 뿐만 아니라 통계, 컴퓨터, 도메인(의료) 각 부분의 지식이 일정수준 이상 필요하다고 생각했습니다. 특히 문제가 발생했을 때 필요성이 나타나는 것 같습니다.

딥 러닝을 위한 라벨을 만드는 과정에서, 데이터 특성으로 인해 문제가 발생했습니다. 학습 결과가 좋지 않다는 피드백을 받고 그 원인이 데이터 특성의 문제임을 파악하여 이를 해결할 수 있었습니다. 제가 라벨을 만들었는데 의료 전문지식을 가진 선생님의 설명을 듣기 전까지는 라벨의 분포가 이렇게 나올 수 없다는 것을 몰랐습니다. 임상 수치에 기본적인 지식이 있었으면 조금 더 빨리 해결할 수 있었을 것이라는 생각이 들었습니다. 자신의 분야에 대한 전문성을 갖되 다른 분야의 지식도 함께 쌓아야 뛰어난 데이터 분석가로 거듭날 수 있을 것이라고 판단했습니다.

총평

새로운 데이터를 다양한 분야의 전문가들과 함께 다루는 즐거운 경험이었습니다. 앞으로 이런 데이터들을 분석하고 연구해 더 가치있는 제품과 서비스로 만들어나가보고 싶습니다.


No comments yet.

Leave a comment

Your email address will not be published.