데이타 워크플로우 관리를 위한 Apache Airflow #1 - 소개
Apache airflow 조대협 (http://bcho.tistory.com)배경빅데이타 분석이나, 머신러닝 코드를 만들다 보면 필요한것중에 하나가 여러개의 태스크를 연결해서 수행해야 할 경우가 있다. 데이타 베이스의 ETL 작업과 비슷한 흐름이라고 보면 된다. 예를 들어 머신러닝의 학습 과정을 보면 데이타 전처리,학습,배포,예측과 같은 단계를 가지게 된다. rawdata를 읽어서 preprocessing 단계를 거쳐서 학습에 적절한 training data로 변경하고,변경된 training data를 가지고 머신러닝 모델을 학습한후, 학습된 모델을 저장한다.학습된 모델을 가지고 예측을 해서 결과를 저장한다. 이렇게 머신러닝은 여러개의 단계를 거쳐서 수행이 되는데, 각 단계가 끝나면 다음 단계를 수행해..