빅데이타 분석 2

데이타 워크플로우 관리를 위한 Apache Airflow #1 - 소개

Apache airflow 조대협 (http://bcho.tistory.com)배경빅데이타 분석이나, 머신러닝 코드를 만들다 보면 필요한것중에 하나가 여러개의 태스크를 연결해서 수행해야 할 경우가 있다. 데이타 베이스의 ETL 작업과 비슷한 흐름이라고 보면 된다. 예를 들어 머신러닝의 학습 과정을 보면 데이타 전처리,학습,배포,예측과 같은 단계를 가지게 된다. rawdata를 읽어서 preprocessing 단계를 거쳐서 학습에 적절한 training data로 변경하고,변경된 training data를 가지고 머신러닝 모델을 학습한후, 학습된 모델을 저장한다.학습된 모델을 가지고 예측을 해서 결과를 저장한다. 이렇게 머신러닝은 여러개의 단계를 거쳐서 수행이 되는데, 각 단계가 끝나면 다음 단계를 수행해..

빅데이타 분석을 위한 람다 아키텍쳐 소개와 이해

람다 아키텍쳐의 소개와 해석조대협 (http://bcho.tistory.com) 람다 아키텍쳐란람다 아키텍쳐는 트위터에서 스트리밍 컴퓨팅에 있었던Nathan Marz에 의해서 소개된 아키텍쳐로, 실시간 분석을 지원하는 빅데이타 아키텍쳐이다.아키텍쳐에 대한 자세한 내용은 http://lambda-architecture.net/ 에 소개되어 있다. 문제의 정의아키텍쳐에 대한 이해를 돕기 위해서 예를 들어 설명해보자. 페이스북과 SNS 애플리케이션 SNS가 있다고 가정하자. 이 애플리케이션은 모바일 애플리케이션이며, 글쓰기, 읽기, 댓글 달기, 스크롤 하기, 페이지 넘기기등 약 1000여개의 사용자 이벤트가 있다고 가정하자. 사용자 수는 대략 1억명이며, 매일 이 각 사용자의 행동 패턴을 서버에 저장하여, 일..