Apache Spark 클러스터 구조

빅데이타 & 머신러닝/스트리밍 데이타 처리

Apache Spark 클러스터 구조

Terry Cho 2015. 5. 18. 21:09

Apache Spark Cluster 구조

스팍의 기본 구조는 다음과 같다.

스팍 프로그램은 일반적으로 “Driver Program”이라고 하는데, 이 Driver Program 은 여러개의 병렬적인 작업으로 나뉘어져사 Spark의 Worker Node(서버)에 있는 Executor(프로세스)에서 실행된다.

1. SparkContext가 SparkClusterManager에 접속한다. 이 클러스터 메니져는 스팍 자체의 클러스터 메니져가 될 수 도 있고 Mesos,YARN 등이 될 수 있다. 이 클러스터 메니저를 통해서 가용한 Excutor 들을 할당 받는다

2. Excutor를 할당 받으면, 각각의 Executor들에게 수행할 코드를 보낸다.

3. 다음으로 각 Excutor 안에서 Task에서 로직을 수행한다.

https://spark.apache.org/docs/1.1.0/cluster-overview.html

Executor : Process
Task : A Unit of work that will sent to one executor

cf. Storm 과 개념이 헷갈릴 수 있는데,

Storm 은 Node가 하드웨어 서버, Worker가 프로세스,Executor가 쓰레드

Spark 은 Worker Node가 하드웨어 서버, Executor가 프로세스 이다.

* 참고 : http://bcho.tistory.com/m/post/995

저작자표시 비영리

'빅데이타 & 머신러닝 > 스트리밍 데이타 처리' 카테고리의 다른 글

Apache Spark - RDD (Resilient Distributed DataSet) 이해하기 - #1 (0)	2015.05.22
Apache Spark 소개 - 스파크 스택 구조 (0)	2015.05.22
Apache Spark 설치 하기 (0)	2015.05.18
Apache Spark이 왜 인기가 있을까? (7)	2015.05.18
Apache Storm을 이용한 실시간 데이타 처리 #6 –Storm 그룹핑 개념 이해하기 (0)	2015.01.29

현재글Apache Spark 클러스터 구조

실리콘밸리에서 살고 있는 평범한 엔지니어 입니다 이메일-bwcho75골뱅이지메일 닷컴. 아키텍처 디자인, 머신러닝 시스템, 빅데이터 설계, DEVOPS/SRE, 애자일 방법론,쿠버네티스,마이크로서비스, ChatGPT 생성형 AI , CTO 등에 대한 기술 멘토링과 강의 진행합니다. 쓰레드 : https://www.threads.net/@byungwookcho

소개, cloud, 구글, google, Kubernetes, 빅데이타, 쿠버네티스, Machine Learning, 조대협, 딥러닝, 초보, 머신러닝, 텐서플로우, node.js, tensorflow, Tutorial, 튜토리얼, 클라우드 컴퓨팅, 강좌, 클라우드,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

조대협의 블로그