EMR 특징

클라우드 컴퓨팅 & NoSQL/Amazon Web Service

EMR 특징

Terry Cho 2012. 12. 6. 17:49

AWS EMR

HDFS in EMR : internal disk 사용

NameNode : SPOF

question

Cascading java based data processing and pipeline API

Cacalog tetual programming language

Mahout : Machine learning algorithm

R : statistics analysis.

데이타를 emr에 넣고 빼기 위한 작업 디렉토리는 S3의 RRS 를 사용하는 것도 고려할만함.

transfer data into aws is FREE.

Spot instance

- 일단 on demand로 시작해놓고 spot을 추가해놓으면 운이 좋게 spot이 돌면, 전체 시간을 줄일 수 있고, worst case에도, on demand 시간 만큼만 사용된다.

- spot instance는 job node에만 생성하는 것이 좋음, data node에는 생성할 수 안하는 것이 좋음.

(spot instance가 shut down되면, 데이타가 손실되고, cluster를 통해서 복구하는데 시간이 많이 들기 때문에.)

- 보통 on demand에 대한 50% 가격으로 bidding하는 것이 좋음

Boot strap option에

- install ganglia 옵션이 자동으로 있음

question :

- redshift

- data pipe line

자료 요청

> Can i know release 2013,Q1

'클라우드 컴퓨팅 & NoSQL > Amazon Web Service' 카테고리의 다른 글

아마존의 SSD의 NoSQL 서비스 Dynamo (0)	2012.12.07
Amazon S3 서비스 소개 (0)	2012.12.06
Dynamo 특징 (0)	2012.12.06
빅데이타 분석을 위한 Amazon의 새 서비스 - redshift와 data pipe line (0)	2012.12.01
Amazon EC2 소개 (개정) (2)	2012.12.01

현재글EMR 특징

실리콘밸리에서 살고 있는 평범한 엔지니어 입니다 이메일-bwcho75골뱅이지메일 닷컴. 아키텍처 디자인, 머신러닝 시스템, 빅데이터 설계, DEVOPS/SRE, 애자일 방법론,쿠버네티스,마이크로서비스, ChatGPT 생성형 AI , CTO 등에 대한 기술 멘토링과 강의 진행합니다.

Machine Learning, 강좌, google, 튜토리얼, 딥러닝, 클라우드, 빅데이타, 클라우드 컴퓨팅, 텐서플로우, Tutorial, node.js, 머신러닝, 쿠버네티스, Kubernetes, cloud, tensorflow, 조대협, 구글, 소개, 초보,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

조대협의 블로그

EMR 특징

'클라우드 컴퓨팅 & NoSQL > Amazon Web Service' 카테고리의 다른 글

'클라우드 컴퓨팅 & NoSQL/Amazon Web Service'의 다른글

티스토리툴바

EMR 특징

'클라우드 컴퓨팅 & NoSQL > Amazon Web Service' 카테고리의 다른 글

'클라우드 컴퓨팅 & NoSQL/Amazon Web Service'의 다른글

관련글

티스토리툴바