데이타 플로우 2

한시간에 만드는 대용량 로그수집 분석 시스템

한시간에 만드는 대용량 로그 수집 시스템조대협 (http://bcho.tistory.com) 정정 및 참고 내용2017.1.24 몇가지 내용을 정정합니다.https://cloud.google.com/logging/quota-policy 를 보면 스택드라이버 로깅에 쿼타 제한이 초당 500건/계정으로 잡혀있어서. 일반적인 경우는 최대 500 TPS의 성능을 낼 수 있습니다. 그 이상의 성능이 필요하면, 여러 계정을 사용해야 합니다 또는 구글에 별도의 쿼타 증설 요청을 해야 합니다.하루에, 최대 2천5백만건의 로그를 하나의 프로젝트를 통해서 수집이 가능합니다. 또한 프리티어의 경우에는 한달에 로그를 5GB 까지 수집이 가능한데, 이게 넘으면 로그가 더이상 수집되지 않습니다. 그래서 아래 내용 처럼 빅쿼리로 ..

데이타 스트리밍 분석 플랫폼 DataFlow - #2 개념 소개 (2/2)

데이타 스트리밍 분석 플랫폼 Dataflow 개념 잡기 #2/2(트리거, 이벤트 타임, 워터마크 개념) 조대협 (http://bcho.tistory.com) 앞글 http://bcho.tistory.com/1122 에 의해서 Dataflow에 대한 개념에 대해서 계속 알아보자 트리거윈도우와 더블어서 Dataflow 프로그래밍 개념중에서 유용한 개념중의 하나가 트리거이다. 트리거는 처리중인 데이타를 언제 다음 단계로 넘길지를 결정하는 개념이다. 특히 윈도우의 개념과 같이 생각하면 좋은데, 윈도우는 일반적으로 윈도우가 종료되는 시간에 그 데이타를 다음 Transform으로 넘기게 된다. 그런데 이런 의문이 생길 수 있다. “윈도우의 크기가 클때 (예를 들어 한시간), 한시간을 기다려야 데이타를 볼 수 있는 ..