분석 15

Apache Storm을 이용한 실시간 데이타 처리 #6 –Storm 그룹핑 개념 이해하기

대충보는 Storm #6-Apache Storm 그룹핑 개념 이해하기 조대협 (http://bcho.tistory.com) 지금까지 컴포넌트간의 경로 라우팅, 즉 Spout 에서 Bolt간, Bolt에서 Bolt간 경로를 설정하는 방법에 대해서 알아보왔다.그렇다면 각 컴포넌트간 라우팅을 할때 그 안에 있는 Task간에는 어떻게 상세하게 라우팅이 될까? Storm에서는 이 Task간의 라우팅을 정의하기 위해서 Grouping이라는 개념을 사용한다. Shuffling가장 간단한 라우팅 방법으로 Bolt A에서 Bolt B로 라우팅을 한다고 했을때, Bolt A내의 있는 Task가 Bolt B에 있는 Task중 아무 Task로 임의로(랜덤하게) 라우팅 하는 방식이다. FieldBolt A에 있는 Task에서 ..

빅데이타 분석을 위한 Amazon의 새 서비스 - redshift와 data pipe line

몇일전 AWS에서 redshift 라는 이름의 새로운 서비스가 발표되었다.redshift는 aws 상에서 제공되는 dataware house 서비스이다.data warehour란, 데이타 분석 및 리포팅의 목적으로, 기업의 모든 데이타를 한곳에 모아서 쿼리에 최적화된 데이타 베이스 서비스를 제공한다.특징은, 많은 양의 데이타를 보관해야 하며, CUD (Create/Update/Delete)보다는 Select나 Join등에 최적화되어 있다. AWS의 redshift의 주요 특징을 보면내부 DB는 postgres로 구현되어 있으며 (실제 구현 제품은 http://www.paraccel.com/ 을 사용하였다.) , IO 성능 최적화에 많은 신경을 썼다.스토리지는 EBS를 사용하지 않고, 다수의 Local S..

"인터넷상 정보의 유통 구조의 변화"에 대한 단상

인터넷의 정보의 유통 구조의 변화 1990년대 인터넷과 WWW이 생기면서 정보의 유통 과정에 일대 변혁이 왔다. 전문가가 아니더라도 전문 정보를 빠른 시간내에 접할 수 있게 되었고, 정보의 소비자에서 이제는 생산자의 역할로까지 변화되었다. 1 단계-초기의 유통 구조초기의 정보 유통 구조는 검색엔진과 디렉토리 서비스를 통하여 원하는 정보를 찾는 형태였다. 검색엔진의 정확도가 상대적으로 낮았고, 랭킹 알고리즘등이 성숙하지 못했기 때문에 디렉토리 서비스를 통해서 분류된 정보를 기반으로 접근하게 되었다. 야후나 라이코스 같은 서비스들의 전성시대가 아니었을까 싶다. 정보의 생산 주체 역시 아무나 웹사이트를 만들 수 없는 환경이었기 때문에, 웹사이트를 만들 수 있는 경제력이나 기술력이 있는 곳을 통해서만 정보에 접..

IT 이야기 2012.07.25

구글 드라이브 간단 분석

훝어 보기 - 인터페이스 기존의 Gmail이나, Google Docs와 상당히 유사하다. 일관된 인터페이스를 제공하는 것은 사용자 경험 관점에서 제대로 된 선택인듯 - 기능 기능적인 차이는 크게 없다. 검색이 강화된 것과 GDocs 연동 기능이 있는 것 정도 기본적으로 저장과 Sync 기능을 제공하고, GDocs와 연동하여 문서를 협업으로 작성할 수 있는 기능을 제공한다. 개인 클라우드 스토리지는 이미 Box나 DropBox같이 여러 서비스들이 강력한 기능을 제공하는 레드 오션이기 때문에 기능적으로 혁신적인 차별화는 어렵고, 기존 서비스와 연동 정도 및 사용자 경험이 관건인데, G Drive는 아무래도 기존 서비스 연동과 함께, Android 플랫폼에 PreLoad되고, 기존 Gmail등 기존 서비스 사..