cjungwoo

About Jungwoo Chae

This author Jungwoo Chae has created 2 entries.

라인웍스에서는 Electronic Health Record (이하 EHR) 데이터를 이용하여 다양한 머신러닝 프로젝트를 진행하고 있습니다. 이번 글에서는 의료 인공지능 개발 프로젝트의 성능 개선을 위해 사용한 LightGBM 알고리즘과 수많은 Feature를 줄이기 위한 Feature Selection 방법을 소개합니다. 추가로, MDwalks EXI에서 선보였던 Deep Learning을 사용한 MIMIC-III 30일 이내 재입원 예측 모델(https://linewalks.com/archives/6142)과 LightGBM 사용 모델의 성능을 비교해보겠습니다. *이번 글은 라인웍스 여름 인턴 프로그램에 참여한 이서호님의 아이디어와 실험 내용을 바탕으로 작성되었습니다. 1. 들어가기 MIMIC-III 모델 구축에 사용한 데이터는 MIMIC-III 데이터베이스입니다. EHR 데이터 중 거의 유일하게 공개된 다년간의 중환자입원 기록으로, 46,520명 환자들의

라인웍스에서는 Electronic Health Record (이하 EHR) 데이터를 이용하여 다양한 머신러닝 프로젝트를 진행하고 있습니다.  이번 글에서는 의료 인공지능 개발 프로젝트의 성능 개선을 위해 사용한 임베딩을 소개합니다. 또, MDwalks EXI에서 선보였던 MIMIC-III 30일 이내 재입원 예측 모델(https://linewalks.com/archives/6142)에 임베딩을 적용해 이를 적용하지 않았던 이전 모델과 성능을 비교해보았습니다. 이 글이 임베딩의 개념과 EHR 데이터에서 임베딩의 필요성을 이해하는데 도움이 되기를 바랍니다. 임베딩(Embedding)이란? 임베딩이란 범주형(Categorical) 자료를 연속형 벡터로 치환하는 것을 말합니다. 예를 들어 A, B, C, D라는 카테고리가 있다고 할 때, 이를 다음과 같이 변환하는 것입니다. 이 변환이 왜 필요할까요?