블로그 이미지
평범하게 살고 싶은 월급쟁이 기술적인 토론 환영합니다.같이 이야기 하고 싶으시면 부담 말고 연락주세요:이메일-bwcho75골뱅이지메일 닷컴. 조대협


Archive»



몇일전 AWS에서 redshift 라는 이름의 새로운 서비스가 발표되었다.
redshift는 aws 상에서 제공되는 dataware house 서비스이다.
data warehour란, 데이타 분석 및 리포팅의 목적으로, 기업의 모든 데이타를 한곳에 모아서 쿼리에 최적화된 데이타 베이스 서비스를 제공한다.
특징은, 많은 양의 데이타를 보관해야 하며, CUD (Create/Update/Delete)보다는 Select나 Join등에 최적화되어 있다.

AWS의 redshift의 주요 특징을 보면
내부 DB는 postgres로 구현되어 있으며 (실제 구현 제품은 http://www.paraccel.com/ 을 사용하였다.) , IO 성능 최적화에 많은 신경을 썼다.
스토리지는 EBS를 사용하지 않고, 다수의 Local Storage를 사용하며, 클러스터링을 통한 용량 확장을 고려하여, 노드간의 통신은 10G 네트워크를 사용한다.
최소 2TB에서, 클러스터링시 최대 8노드를 묶어서 1.6PB의 용량을 지원할 수 있다.
또한 데이타 Loading을 위해서 aws내의 s3,emr(hadoop),rds,dynamoDB와 연동을 지원하여, 이 데이타소스로 부터 바로 redshift로 데이타를 로딩할 수 있다.
DW는 데이타를 저장하고, 쿼리해주는 것이고, 결과적으로는 UI 기반의 리포팅이 필요한데, redshift는 BI 리포팅의 선두 주자인 Microstrategy를 지원하고, Jaspersoft 제품도 지원한다. 

또한 redshift와 함께 발표된 제품으로 data pipe line 이라는 제품이 있다.



[ aws data pipeline 화면 예시]

이 제품은 일종의 ETL (Extract Transform Loading)과 같은 제품 기능을 갖는데, 
aws의 data storage 서비스간에 데이타를 주기적으로 (Batch형태로) 수집 및 변환한 후 다른 data storage로 넘길 수 있다.
hadoop based의 emr, s3, dynamo, redshift 등이 그 대상에 포함이 되는데,

이 두 시나리오를 종합해보면
EC2에서 발생된 로그를 S3나 Dynamo에 저장했다가 data pipe line을 통해서 주기적으로  emr에 넣어서 데이타를 정제 한후
다시 redshift dw로 옮겨서 리포팅을 제공하는 서비스가 가능하게 된다. 리포팅은 호환성을 갖는 BI 전문 3'rd party를 통해서 제공함으로써,
데이타 생성후의 모든 과정에 대해서 지원을 하게 됨으로써, 빅데이타에 대한 클라우드 서비스를 가능하게 하였다.

현재 redshift와 data pipe line 서비스는 한정된 고객을 대상으로 close beta 서비스 중이다.

본인은 구글 클라우드의 직원이며, 이 블로그에 있는 모든 글은 회사와 관계 없는 개인의 의견임을 알립니다.

댓글을 달아 주세요