클라우드 컴퓨팅 & NoSQL/Amazon Web Service

EMR 특징

Terry Cho 2012. 12. 6. 17:49

AWS EMR


HDFS in EMR : internal disk 사용

NameNode : SPOF

question


Cascading java based data processing and pipeline API 

Cacalog tetual programming language

Mahout : Machine learning algorithm

R : statistics analysis. 



데이타를 emr에 넣고 빼기 위한 작업 디렉토리는 S3의 RRS 를 사용하는 것도 고려할만함. 


transfer data into aws is FREE.



Spot instance

- 일단 on demand로 시작해놓고 spot을 추가해놓으면 운이 좋게 spot이 돌면, 전체 시간을 줄일 수 있고, worst case에도, on demand 시간 만큼만 사용된다.

- spot instance는 job node에만 생성하는 것이 좋음, data node에는 생성할 수 안하는 것이 좋음. 

(spot instance가 shut down되면, 데이타가 손실되고, cluster를 통해서 복구하는데 시간이 많이 들기 때문에.)

- 보통 on demand에 대한 50% 가격으로 bidding하는 것이 좋음



Boot strap option에

- install ganglia 옵션이 자동으로 있음



question :

- redshift

- data pipe line

자료 요청


> Can i know release 2013,Q1



Other solutions

- caclog

- Mahout

- R