AWS EMR
HDFS in EMR : internal disk 사용
NameNode : SPOF
question
Cascading java based data processing and pipeline API
Cacalog tetual programming language
Mahout : Machine learning algorithm
R : statistics analysis.
데이타를 emr에 넣고 빼기 위한 작업 디렉토리는 S3의 RRS 를 사용하는 것도 고려할만함.
transfer data into aws is FREE.
Spot instance
- 일단 on demand로 시작해놓고 spot을 추가해놓으면 운이 좋게 spot이 돌면, 전체 시간을 줄일 수 있고, worst case에도, on demand 시간 만큼만 사용된다.
- spot instance는 job node에만 생성하는 것이 좋음, data node에는 생성할 수 안하는 것이 좋음.
(spot instance가 shut down되면, 데이타가 손실되고, cluster를 통해서 복구하는데 시간이 많이 들기 때문에.)
- 보통 on demand에 대한 50% 가격으로 bidding하는 것이 좋음
Boot strap option에
- install ganglia 옵션이 자동으로 있음
question :
- redshift
- data pipe line
자료 요청
> Can i know release 2013,Q1
Other solutions
- caclog
- Mahout
- R
'클라우드 컴퓨팅 & NoSQL > Amazon Web Service' 카테고리의 다른 글
아마존의 SSD의 NoSQL 서비스 Dynamo (0) | 2012.12.07 |
---|---|
Amazon S3 서비스 소개 (0) | 2012.12.06 |
Dynamo 특징 (0) | 2012.12.06 |
빅데이타 분석을 위한 Amazon의 새 서비스 - redshift와 data pipe line (0) | 2012.12.01 |
Amazon EC2 소개 (개정) (2) | 2012.12.01 |