블로그 이미지
평범하게 살고 싶은 월급쟁이 기술적인 토론 환영합니다.같이 이야기 하고 싶으시면 부담 말고 연락주세요:이메일-bwcho75골뱅이지메일 닷컴. 조대협


Archive»


EMR 특징

클라우드 컴퓨팅 & NoSQL/Amazon Web Service | 2012.12.06 17:49 | Posted by 조대협

AWS EMR


HDFS in EMR : internal disk 사용

NameNode : SPOF

question


Cascading java based data processing and pipeline API 

Cacalog tetual programming language

Mahout : Machine learning algorithm

R : statistics analysis. 



데이타를 emr에 넣고 빼기 위한 작업 디렉토리는 S3의 RRS 를 사용하는 것도 고려할만함. 


transfer data into aws is FREE.



Spot instance

- 일단 on demand로 시작해놓고 spot을 추가해놓으면 운이 좋게 spot이 돌면, 전체 시간을 줄일 수 있고, worst case에도, on demand 시간 만큼만 사용된다.

- spot instance는 job node에만 생성하는 것이 좋음, data node에는 생성할 수 안하는 것이 좋음. 

(spot instance가 shut down되면, 데이타가 손실되고, cluster를 통해서 복구하는데 시간이 많이 들기 때문에.)

- 보통 on demand에 대한 50% 가격으로 bidding하는 것이 좋음



Boot strap option에

- install ganglia 옵션이 자동으로 있음



question :

- redshift

- data pipe line

자료 요청


> Can i know release 2013,Q1



Other solutions

- caclog

- Mahout

- R


본인은 구글 클라우드의 직원이며, 이 블로그에 있는 모든 글은 회사와 관계 없는 개인의 의견임을 알립니다.

댓글을 달아 주세요

  1. jenny 2014.03.21 17:01  댓글주소  수정/삭제  댓글쓰기

    emr에서 r이나 mahout 작업을 할 수 있는건가요?