스파크 성능이 안나오면, 우리 회사 데이타팀 팀장왈. 먼저 파이썬으로 짰는지 확인 부터 해보라길래, 파이썬과 스칼라로 만들어진 스파크 성능 차이가 얼마나 나는지 찾아봤더니 다음과 같은 수치가 나왔다.
http://emptypipes.org/2015/01/17/python-vs-scala-vs-spark/ (원본 출처)
일단 스파크를 할려면 스칼라는 필수인듯 하다.
간단한 프로토타입핑등에는 파이썬을 사용할 수 있겠지만 결국 프로적션은 스칼라로 최적화해야 할듯.
근데. 자바대 스칼라 성능 비교는 없네
'빅데이타 & 머신러닝 > 스트리밍 데이타 처리' 카테고리의 다른 글
트위터 피드 실시간 분석 시스템 디자인 (0) | 2016.09.09 |
---|---|
실시간 빅데이타 처리를 위한 스트리밍 처리의 개념 (1) | 2016.07.04 |
Apache Spark - Key/Value Paris (Pair RDD) (0) | 2015.06.09 |
Apache Spark - RDD (Resilient Distributed DataSet) Persistence (1) | 2015.05.31 |
Apache Spark - RDD (Resilient Distributed DataSet) 이해하기 - #2 (1) | 2015.05.26 |