Our Blog

이전 포스팅 에 이어서 Python 에서 TAJO 를 사용하는데 필요한 몇 가지 사항을 정리해본다. Query 를 실행했다 그리고 이전 포스팅 마지막에 실행한 쿼리를 보자. query = "select * from table1" cur.execute(query) result = cur.fetchall() 결과를 python 에서 사용해보자. for each in result: print each[0] / each[1] 이런 경우 아래와 같은 Error 문구를 볼 수 있다. TypeError: unsupported operand type(s) for /: 'java.lang.Long' and 'java.lang.Long' 문제는 문제는 query 의 결과값이 숫자인 경우 아래와 같은 형식으로 리턴되기 때문이다. print type(each[2]) <class 'jpype._jclass.java.lang.Long'> 해결해보자 사실 해결책은 간단하다. 결국 TAJO 의 결과 값이 JDBC 를

작년에는 필요한 알고리즘은 직접 개발하여 사용했었는데 회사가 발전해감에 따라서 점점 시스템을 구축할 필요를 느끼고 있어서 기존에 다른 기업들이 공개한 데이터와 관련된 기술들을 찾아보았다. 우선 트위터 에서는 2011년에 Bootstrap 외에도 실시간 분석 분산 시스템 인 Storm 을 공개했다. (2011.08.04)A Storm is coming: more details and plans for release (2013.09.06)트위터 Storm 소개 2013년에는 StormHadoop 을 결합한 Summingbird 을 추가로 공개하였다. (2013.09.03)Streaming MapReduce with Summingbird 2014년에는 구글 에서 Mesa 라는 highly scalable analytic data warehousing system

라인웍스에서는 정적인 데이터를 분석하는 경우 데이터레이크(Data Lake) 로 TAJO 를 사용하고 있다. 회사 내에서 분석하고 서비스로 만들어내는 모든 데이터는 여기에서 시작된다. 우선 TAJO 에 Query 를 이용하여 데이터를 쪼개보고, 붙여보고, 나열해본 후에는 이를 csv 파일로 만든 후 에 Python 으로 load 하여 그래프를 그리거나 머신러닝 알고리즘을 수행하는 형식이다. (Python 의 경우 직접 실행하는 방법도 있고 IPython Notebook 을 사용하기도 한다.) 결국 Data – TAJO – CSV – Python – RESULTS 와 같은 단계를 거치게 되는데 이 단계를 단축시켜보자는게 이

  [모바일 시대의 사람들] (12) 빅데이터로 의료부터 금융까지…라인웍스 조용현 대표, 홍원준 CTO 라인웍스는 2016년부터 자사가 갖고 있는 데이터 정제, 분석 역량을 더욱 강화할 계획이다. 사회적으로 공익적인 가치를 줄 수 있는 의료 지표를 공유하는 것은 물론, 금융 데이터와 관련해서도 더욱 많은 사업을 할 계획이다. 국내 데이터 드리븐 비즈니스가 발전하고 있는 현장이 바로 여기에 있었다.

빌리, 라인웍스, 고려대와 P2P신용평가시스템 고도화·보안자문 위한 MOU 체결 라인웍스 조용현대표는 “기계학습 기술을 사용해 기존 모델에 비하여 복잡한 변수간의 관계를 분석하고, 빌리의 로그데이터가 추가됨에 따라 P2P 대출에 더욱 최적화된 신용평가모델을 구축할 수 있을 것으로 예상된다.”고 밝혔다.

분야를 막론하고 데이터 분석이 적용되는 영역에서 보안은 중요한 문제로 거론되고 있다. 보안이 중요한 이유는 데이터에 포함되어 있는 정보의 파급력 때문이다. 일반적으로 데이터 분석이 효과적이기 위해서는 개체를 특정할 수 있는 정보가 포함되어야 한다. 취급되는 정보의 특성에 따라 개체를 특정하는 데이터의 형태가 다양하지만 이러한 형태의 정보는 기업의 중요한 기밀사항을 노출시킬 수 있으며 심할 경우 범죄에 악용될 소지도 존재한다. 당연히 중요한 정보일수록 파급력이 크고 보안을 더욱 강력하게 이루어져야 한다. 다른 분야보다도 헬스케어 분야에서의 보안 문제는 복잡하고 해결하기 어려운 상황에 놓여있다. 그 이유는 관련

헬스케어 애널리틱스(이하 HA)는 다른 여타 분야의 애널리틱스와 비교하여 몇 가지 차이에 의해 불편함을 내재하고 있다. 그것은 지난 글에서 언급한 바와 같이 우리가 느끼고 있는 괴리감과 더불어 헬스케어 분야의 데이터가 가지고 있는 특수성에 기인한다. 헬스케어 데이터는 사실 기반의 자료이지만 독특한 확률적인 속성을 지니고 있다. 이 확률적인 속성은 과학에서 논하고 있는 측정의 불확실성과는 조금 경우가 다르다. 예를 들면, 오늘 최고 기온이 30℃라는 것(사실)이 참인가 거짓인가를 살펴보기 위해서는 그 온도를 측정한 온도계가 얼마나 정확한지 여부에 달려있다. 즉, 온도계가 온도를 정확히 측정할 수 있는 품질을

헬스케어라는 말이 언제부터 사용되기 시작하였고, 그것이 일상에서 보편적이고 광범위한 의미로 받아들여지기 시작했는지 명확하지는 않다. 일반적으로 헬스케어는 보건의료 서비스를 총칭하는 말이다 1 . 문화적 시각에서 헬스케어를 정의하면 “인간에게 도전하는 질환과 이를 극복하기 위한 인간 노력”으로 요약될 수 있다 2. 우리가 알고 있는 산업화의 의미, 즉 기계나 도구를 이용한 합리적이고 능률적인 생산 양식의 변화와 구조의 변동 과정에 비추어 본다면, 헬스케어는 질병 극복을 위한 일련의 경제적 행위에 해당하는 모든 것을 포괄한다고 볼 수 있다. 열이나 기침, 통증 등에 대한

라인웍스 팀블로그를 시작합니다. 앞으로 기계학습 기반 빅데이터 분석으로 만든 새로 만든 ‘데이터’의 내용과 관련된 정보들을 자주 올리겠습니다. 흥미롭게 봐주시고요. 데이터와 관련된 모든 의견과 문의는 언제든지 환영합니다~ web@linewalks.com