ELT 2

빅데이터 분석을 위한 메달리온 아키텍처

빅데이터 분석을 위한 메달리온 아키텍처조대협 (http://bcho.tistory.com) 메달리온 아키텍처는 데이터를 품질에 따라서 계층별로 나눠서 저장하는 데이터 분석 아키텍처이다. Databricks에서 데이터 엔지니어링과 분석 워크플로우를 단순화하기 위해서 소개된 개념으로 데이터 레이크 기반 시스템에서 데이터의 품질과 정제 수준을 체계적으로 관리하기 위해서 등장했다. 데이타를 품질에 따라서, 올림픽 메달처럼 Bronze ⇒ Silver ⇒ Gold 등급으로 나눠서 저장한다. 특히 데이터 레이크 (하둡과 같은 파일 시스템 기반)과 데이터 웨어하우스(빅쿼리,오라클,스노우플레이크와 같은 SQL 기반)을 통합하여, 데이터 정제 단계를 계층화 하였다.  이해를 돕기 위해서 아래 그림을 보자. 먼저 데이터 ..

빅데이터 분석을 위한 ELT 플랫폼 BQ Workflow vs Dataform

빅데이터 분석을 위한 ELT 플랫폼 BQ Workflow vs Dataform조대협 (http://bcho.tistory.com) 빅데이터 분석에 시스템에서 데이터 분석에 앞서서, 데이터 수집 (Ingestion),데이터 변환(Transformation) 과정이 있고, 이 과정은 여러개의 스텝으로 구성이 된다. 그래서 이런 스탭들을 관리하기 위해서 오케스트레이션 솔루션이 사용되는데, 오픈소스로 가장 많이 사용되는 솔루션 중의 하나는 Apache Airflow이다. Airflow는 재처리 로직, 병렬처리, 외부 컴포넌트 호출등 많은 기능을 폭넓게 지원하지만 문제는 그만큼 복잡도가 높다는 문제이다. (Airflow에 대한 설명 : https://bcho.tistory.com/1184 )현재의 빅데이터 분석은..