Our Blog

라인웍스는 지난 9월 20일부터 22일까지 국가임상시험지원재단(KONECT)에서 주최한 Korea Clinical Datathon 2019에 참가했습니다. 라인웍스 4인은 각기 다른 팀에서 다양한 역할로 Datathon에 참가했는데요. 다채로운 관점의 후기를 릴레이로 공유합니다. 0. INTRO → 바로가기1. 임정, SQL 전문가(팀9) → 바로가기2. 허신영, 데이터 사이언티스트(팀7) → 바로가기3. 박근우, SQL 전문가(팀7) → 바로가기4. 송치오, IT 전문가(팀14) → 현재 글 마지막으로 Tech그룹의 Machine Learning Engineer 송치오 님의 후기를 공유합니다. 참여자 송치오 주역할: IT전문가 부역할: 데이터 사이언티스트 주제 패혈증 환자 클러스터링을 통한 상관관계 파악 및 병원 내 사망 예측 데이터셋: MIMIC-III문제정의: 패혈증(sepsis)을 판단하는

라인웍스는 지난 9월 20일부터 22일까지 국가임상시험지원재단(KONECT)에서 주최한 Korea Clinical Datathon 2019에 참가했습니다. 라인웍스 4인은 각기 다른 팀에서 다양한 역할로 Datathon에 참가했는데요. 다채로운 관점의 후기를 릴레이로 공유합니다. 0. INTRO → 바로가기1. 임정, SQL 전문가(팀9) → 바로가기2. 허신영, 데이터 사이언티스트(팀7) → 바로가기3. 박근우, SQL 전문가(팀7) → 현재 글 4. 송치오, IT 전문가(팀14) → 바로가기 세번째로 데이터분석그룹의 Data Scientist 박근우 님의 후기를 공유합니다. 참여자 박근우 (역할: SQL 전문가)  주제 조기 치료가 필요한 당뇨성 신장질환 환자 분류 (허신영 님과 같은 팀) 후기 CDM 데이터 맛볼수 있는 기회 건강보험심사평가원의

라인웍스에서는 Electronic Health Record (이하 EHR) 데이터를 이용하여 다양한 머신러닝 프로젝트를 진행하고 있습니다. 이번 글에서는 의료 인공지능 개발 프로젝트의 성능 개선을 위해 사용한 LightGBM 알고리즘과 수많은 Feature를 줄이기 위한 Feature Selection 방법을 소개합니다. 추가로, MDwalks EXI에서 선보였던 Deep Learning을 사용한 MIMIC-III 30일 이내 재입원 예측 모델(https://linewalks.com/archives/6142)과 LightGBM 사용 모델의 성능을 비교해보겠습니다. *이번 글은 라인웍스 여름 인턴 프로그램에 참여한 이서호님의 아이디어와 실험 내용을 바탕으로 작성되었습니다. 1. 들어가기 MIMIC-III 모델 구축에 사용한 데이터는 MIMIC-III 데이터베이스입니다. EHR 데이터 중 거의 유일하게 공개된 다년간의 중환자입원 기록으로, 46,520명 환자들의

라인웍스는 지난 9월 20일부터 22일까지 국가임상시험지원재단(KONECT)에서 주최한 Korea Clinical Datathon 2019에 참가했습니다. 라인웍스 4인은 각기 다른 팀에서 다양한 역할로 Datathon에 참가했는데요. 다채로운 관점의 후기를 릴레이로 공유합니다. 0. INTRO → 바로가기1. 임정, SQL 전문가(팀9) → 바로가기2. 허신영, 데이터 사이언티스트(팀7) → 현재 글3. 박근우, SQL 전문가(팀7) → 바로가기4. 송치오, IT 전문가(팀14) → 바로가기 두번째로 Tech그룹의 Lead Data Engineer인 허신영 님의 후기를 공유합니다. 제가 참가한 팀7은 아주대학병원의 CDM ECGViEW을사용하여 “당뇨환자의 신장 기능 감소 예측”을 하였습니다. 최근

라인웍스는 지난 9월 20일부터 22일까지 국가임상시험지원재단(KONECT)에서 주최한 Korea Clinical Datathon 2019에 참가했습니다. 라인웍스 4인은 각기 다른 팀에서 다양한 역할로 Datathon에 참가했는데요. 다채로운 관점의 후기를 릴레이로 공유합니다. 0. INTRO → 바로가기1. 임정, SQL 전문가(팀9) → 현재 글2. 허신영, 데이터 사이언티스트(팀7) → 바로가기3. 박근우, SQL 전문가(팀7) → 바로가기4. 송치오, IT 전문가(팀14) → 바로가기 첫번째로 데이터분석그룹의 Data Analyst 임정 님의 후기를 공유합니다. 참여자 임정 (역할: SQL 전문가) 주제 B형간염 환자에서 약제에 따른 간암발생비교와 간암 및 합병증 발생 예측 코호트(Cohort) 정의 처음 B형간염

라인웍스는 지난 9월 20일부터 22일까지 국가임상시험지원재단(KONECT)에서 주최한 Korea Clinical Datathon 2019에 참가했습니다. 라인웍스 4인은 각기 다른 팀에서 다양한 역할로 Datathon에 참가했는데요. 다채로운 관점의 후기를 릴레이로 공유합니다. 0. INTRO → 현재 글1. 임정, SQL 전문가(팀9) → 바로가기 2. 허신영, 데이터 사이언티스트(팀7) → 바로가기 3. 박근우, SQL 전문가(팀7) → 예정4. 송치오, IT 전문가(팀14) → 예정 최근 대형 의료기관을 중심으로 환자 데이터를 대규모로 축적하는 움직임이 활발했습니다. 축적한 환자 데이터를 비식별화 한 후 공개하여 임상 연구를 촉진하려는 시도가 이뤄지고 있습니다. 이런 시도에

라인웍스는  Electronic Health Record (전자의무기록, 이하 EHR) 데이터를 이용하여 다양한 데이터 분석, 머신러닝 프로젝트를 진행하고 있습니다. 두 편에 걸쳐 순차 패턴 마이닝(Sequential Pattern Mining)을 EHR에 적용하여 분석한 사례를 소개합니다. 지난 글(바로가기)에서는 EHR 데이터를 정제하는 방법에 대해 설명했습니다. 이번 글은 순차 패턴 마이닝을 간략히 설명하고 분석 결과를 소개합니다.  순차 패턴 마이닝이란? 순차 패턴 마이닝(sequential pattern mining)은 대량의 데이터에 숨겨진 “순차적 패턴”을 찾는 분석방법입니다. 연속하여 일어나는 패턴을 찾는데 유용한 방법으로, 커머스 분야에서 고객이 어떤 순서로 제품을 구매하는지 분석하는데 자주 활용합니다.  예를 들어 대형 슈퍼마켓에서 고객들의

라인웍스는  Electronic Health Record (전자의무기록, 이하 EHR) 데이터를 이용하여 다양한 데이터 분석, 머신러닝 프로젝트를 진행하고 있습니다. 이번 글에서는 순차 패턴 마이닝(Sequential Pattern Mining)을 EHR에 적용하여 분석한 사례를 소개합니다. “순차 패턴 마이닝” 분석은 다양한 산업 분야에서 활용하고 있으며 특히 온라인 커머스 분야가 적극적으로 활용하고 있습니다. 고객이 상품을 구매한 순서를 파악할 수 있다면, 다음에 구매할 상품을 예측해볼 수 있습니다. 예측한 상품의 광고나 쿠폰을 제공하여 고객이 추천한 상품을 구매하게 되면 이는 매출증가로 이어질 것입니다. 대량의 구매 기록에서 이런 정보를 찾아내는 방법이 순차 패턴 마이닝입니다.  라인웍스는

라인웍스는 지난 달 코엑스에서 열린 K-Hospital Fair 2019(국제병원의료산업박람회)에 참가했습니다. 이번 박람회에는 의료 인공지능 특별전이 함께 개최되었는데요. 의료 인공지능 특별전은 한국형 AI정밀의료 서비스 ‘닥터앤서(Dr.Answer)’를 홍보하는 자리로, 라인웍스는 심혈관질환 환자 관리 의료 인공지능 MDwalks EXI(Extensible Intelligence)를 소개했습니다. 올 해 박람회에서는 지난 해 보다 발전한 MDwalks EXI의 새로운 모습을 방문객들에게 선보일 수 있었습니다.  지난 해에는 “입원 환자가 퇴원 후 30일 이내에 다시 입원할 확률”을 예측하는 인공지능을 소개했습니다. 의료진에 유용한 정보를 줄 수 있었지만, 모니터링 하는 환자의 범위가 넓어 실제 진료 현장에 적용이 어려운 단점이 있었습니다.

라인웍스에서는 Electronic Health Record (이하 EHR) 데이터를 이용하여 다양한 머신러닝 프로젝트를 진행하고 있습니다.  이번 글에서는 의료 인공지능 개발 프로젝트의 성능 개선을 위해 사용한 임베딩을 소개합니다. 또, MDwalks EXI에서 선보였던 MIMIC-III 30일 이내 재입원 예측 모델(https://linewalks.com/archives/6142)에 임베딩을 적용해 이를 적용하지 않았던 이전 모델과 성능을 비교해보았습니다. 이 글이 임베딩의 개념과 EHR 데이터에서 임베딩의 필요성을 이해하는데 도움이 되기를 바랍니다. 임베딩(Embedding)이란? 임베딩이란 범주형(Categorical) 자료를 연속형 벡터로 치환하는 것을 말합니다. 예를 들어 A, B, C, D라는 카테고리가 있다고 할 때, 이를 다음과 같이 변환하는 것입니다. 이 변환이 왜 필요할까요?