Spark Key/Value Pairs조대협 http://bcho.tistory.com RDD에는 어떤 데이타 형식이라던지 저장이 가능한데, 그중에서 Pair RDD라는 RDD가 있다. 이 RDD는 Key-Value 형태로 데이타를 저장하기 때문에, 병렬 데이타 처리 부분에서 그룹핑과 같은 추가적인 기능을 사용할 수 있다. 예를 들어 reduceByKey 와 같이 특정 키를 중심으로 데이타 연산 (각 키 값 기반으로 합이나 평균을 구한다던가) key 기반으로 join 을 한다던가와 같은 그룹핑 연산에 유용하게 사용할 수 있다. Pair RDD를 생성하는 방법은 다음과 같다. JavamapToPair나 flatMapToPair 라는 메서드를 사용하면 된다. mapToPair등의 함수를 이용할때, 아래와 같..