스트리밍 분석 플랫폼인 Apache Beam (Dataflow)를 공부하다 보니, 예제가 필요해서 지난번에는 힐러리와 트럼프 후보가 언급된 피드를 읽어서, 구글의 자연어 분석 API를 통해서 긍정/부정 여부를 분석한 후, 빅쿼리에 넣어서, 파이썬 노트로 그래프로 표현해봤는데, 아무래도 자연어 분석 API의 정확도가 아직 떨어지는 건지, 대부분 부정으로 나오고, 분석 결과도 재미가 없다. 그래서 새로운 분석 예제를 고민 하다가, 다음 방향으로 정했다. 지난번과 마찬가지로 데이타 수집은 트위터에서 특정 키워드를 fluentd로 수집한다.수집한 데이타는 Pub/sub에 저장한다.Pub/sub에 데이타 플로우 파이프라인을 연결한다.데이타 플로우 파이프라인에서 데이타를 읽는다.읽어온 데이타중 10%만 샘플링 한다..