스파크 성능이 안나오면, 우리 회사 데이타팀 팀장왈. 먼저 파이썬으로 짰는지 확인 부터 해보라길래, 파이썬과 스칼라로 만들어진 스파크 성능 차이가 얼마나 나는지 찾아봤더니 다음과 같은 수치가 나왔다.
http://emptypipes.org/2015/01/17/python-vs-scala-vs-spark/ (원본 출처)
일단 스파크를 할려면 스칼라는 필수인듯 하다.
간단한 프로토타입핑등에는 파이썬을 사용할 수 있겠지만 결국 프로적션은 스칼라로 최적화해야 할듯.
근데. 자바대 스칼라 성능 비교는 없네
'빅데이타 > 스트리밍 데이타 처리' 카테고리의 다른 글
트위터 피드 실시간 분석 시스템 디자인 (0) | 2016.09.09 |
---|---|
실시간 빅데이타 처리를 위한 스트리밍 처리의 개념 (1) | 2016.07.04 |
Apache Spark-Python vs Scala 성능 비교 (1) | 2015.06.09 |
Apache Spark - Key/Value Paris (Pair RDD) (0) | 2015.06.09 |
Apache Spark - RDD (Resilient Distributed DataSet) Persistence (1) | 2015.05.31 |
Apache Spark - RDD (Resilient Distributed DataSet) 이해하기 - #2 (1) | 2015.05.26 |
댓글을 달아 주세요
원본 글의 본래 의도는, core 갯수가 작을 때는 scala 가 빠르지만 많을 때는 python을 써도 무방하다! 라는 거였어요 :)
다만 작성자도 말했듯이 data size가 작아 엄밀하다고는 볼 수 없을 듯 하지만 참고용으로 쓸 수 있을 거 같아요!