빅데이타 수집을 위한 데이타 수집 솔루션 Embulk 소개 조대협 (http://bcho.tistroy.com) 빅데이타 분석에 있어서, 아키텍쳐적으로 중요한 모듈중의 하나는 여러 서버로 부터 생성되는 데이타를 어떻게 모을 것인가이다. 얼마전에, 일본의 사례를 보다가 눈에 띄는 솔루션이 있어서 주말을 통해서 이런 저런 테스트를 해봤다. Embulk 소개Embulk라는 솔루션인데, fluentd를 만들었던 사람이 만들었다고 한다.여러 종류의 데이타 소스에서 데이타를 읽어서 로딩을 할 수 있다. 주요 특징을 보면플러그인 형태로 여러개의 소스와 타겟을 지원한다. jRuby로 개발이 되어서 ruby gem을 이용하여 손쉽게 플러그인을 설치할 수 있다. 병렬 로딩이 가능하다. 예를 들어 여러개의 파일을 동시에 로..