파이프라인 2

컨테이너 기반 워크플로우 솔루션 Argo

컨테이너 기반의 워크플로우 솔루션 argo조대협 (http://bcho.tistory.com) argo는 컨테이너 워크플로우 솔루션이다.컨테이너 기반으로 빅데이타 분석, CI/CD, 머신러닝 파이프라인을 만들때 유용하게 사용할 수 있는 오픈 소스 솔루션으로 개념은 다음과 같다. 워크플로우를 정의하되 워크플로우의 각각의 스텝을 컨테이너로 정의한다.워크플로우 스펙은 YAML로 정의하면, 실행할때 마다 컨테이너를 생성해서, 작업을 수행하는 개념이다. 기존에 아파치 에어플로우 (https://airflow.apache.org/)등 많은 워크 플로우 솔루션이 있지만, 이러한 솔루션은 컴포넌트가 VM/컨테이너에서 이미 준비되서 돌고 있음을 전제로 하고, 각각의 컴포넌트를 흐름에 따라서 호출하는데 목적이 맞춰서 있다..

데이타 워크플로우 관리를 위한 Apache Airflow #1 - 소개

Apache airflow 조대협 (http://bcho.tistory.com)배경빅데이타 분석이나, 머신러닝 코드를 만들다 보면 필요한것중에 하나가 여러개의 태스크를 연결해서 수행해야 할 경우가 있다. 데이타 베이스의 ETL 작업과 비슷한 흐름이라고 보면 된다. 예를 들어 머신러닝의 학습 과정을 보면 데이타 전처리,학습,배포,예측과 같은 단계를 가지게 된다. rawdata를 읽어서 preprocessing 단계를 거쳐서 학습에 적절한 training data로 변경하고,변경된 training data를 가지고 머신러닝 모델을 학습한후, 학습된 모델을 저장한다.학습된 모델을 가지고 예측을 해서 결과를 저장한다. 이렇게 머신러닝은 여러개의 단계를 거쳐서 수행이 되는데, 각 단계가 끝나면 다음 단계를 수행해..