클라우드 컴퓨팅 & NoSQL/Amazon Web Service

빅데이타 분석을 위한 Amazon의 새 서비스 - redshift와 data pipe line

Terry Cho 2012. 12. 1. 23:16


몇일전 AWS에서 redshift 라는 이름의 새로운 서비스가 발표되었다.
redshift는 aws 상에서 제공되는 dataware house 서비스이다.
data warehour란, 데이타 분석 및 리포팅의 목적으로, 기업의 모든 데이타를 한곳에 모아서 쿼리에 최적화된 데이타 베이스 서비스를 제공한다.
특징은, 많은 양의 데이타를 보관해야 하며, CUD (Create/Update/Delete)보다는 Select나 Join등에 최적화되어 있다.

AWS의 redshift의 주요 특징을 보면
내부 DB는 postgres로 구현되어 있으며 (실제 구현 제품은 http://www.paraccel.com/ 을 사용하였다.) , IO 성능 최적화에 많은 신경을 썼다.
스토리지는 EBS를 사용하지 않고, 다수의 Local Storage를 사용하며, 클러스터링을 통한 용량 확장을 고려하여, 노드간의 통신은 10G 네트워크를 사용한다.
최소 2TB에서, 클러스터링시 최대 8노드를 묶어서 1.6PB의 용량을 지원할 수 있다.
또한 데이타 Loading을 위해서 aws내의 s3,emr(hadoop),rds,dynamoDB와 연동을 지원하여, 이 데이타소스로 부터 바로 redshift로 데이타를 로딩할 수 있다.
DW는 데이타를 저장하고, 쿼리해주는 것이고, 결과적으로는 UI 기반의 리포팅이 필요한데, redshift는 BI 리포팅의 선두 주자인 Microstrategy를 지원하고, Jaspersoft 제품도 지원한다. 

또한 redshift와 함께 발표된 제품으로 data pipe line 이라는 제품이 있다.



[ aws data pipeline 화면 예시]

이 제품은 일종의 ETL (Extract Transform Loading)과 같은 제품 기능을 갖는데, 
aws의 data storage 서비스간에 데이타를 주기적으로 (Batch형태로) 수집 및 변환한 후 다른 data storage로 넘길 수 있다.
hadoop based의 emr, s3, dynamo, redshift 등이 그 대상에 포함이 되는데,

이 두 시나리오를 종합해보면
EC2에서 발생된 로그를 S3나 Dynamo에 저장했다가 data pipe line을 통해서 주기적으로  emr에 넣어서 데이타를 정제 한후
다시 redshift dw로 옮겨서 리포팅을 제공하는 서비스가 가능하게 된다. 리포팅은 호환성을 갖는 BI 전문 3'rd party를 통해서 제공함으로써,
데이타 생성후의 모든 과정에 대해서 지원을 하게 됨으로써, 빅데이타에 대한 클라우드 서비스를 가능하게 하였다.

현재 redshift와 data pipe line 서비스는 한정된 고객을 대상으로 close beta 서비스 중이다.

'클라우드 컴퓨팅 & NoSQL > Amazon Web Service' 카테고리의 다른 글

EMR 특징  (1) 2012.12.06
Dynamo 특징  (0) 2012.12.06
Amazon EC2 소개 (개정)  (2) 2012.12.01
aws lesson learned  (0) 2012.11.19
Tips Amazon Cloud 사용시 고려 사항  (1) 2012.11.14