클라우드 컴퓨팅 & NoSQL/Cassandra

분산데이타 베이스 Cassandra vs HBase 에 대한 짧은 의견

Terry Cho 2010. 3. 12. 14:44
http://www.roadtofailure.com/2009/10/29/hbase-vs-cassandra-nosql-battle/comment-page-1/

Cassandra의 센터간 데이타 복제에 대한 자료를 찾다가 발견했는데,
Cassandra 소개 페이지에 들어가보면 inter-data-center 복제가 가능하다고 명시되어 있다.
그런데 위의 링크된 문서를 보니

방식이 Coordinator가 변경된 내용을 실시간으로 복제하는 방식이다. 
문제는 전제 조건이 센터간 Fiber 망을 사용하는 low latency 환경이라야 하는것.. 이래서야 센터간의 망 구축 비용이 더 들테니까는 PASS, 거기에 아직 검증된 사례가 없다.

반면에 HBase의 경우 Golden Gate와 같은 CDC나 MySQL georeplication과 유사한 원리로 Update Log를 Replication하는 방식으로 복제 성능은 Cassandra보다는 느릴지 몰라도 훨씬 합리적인 구조를 가지고 있다.

설치는 Cassandra가 쉽지만 관리 기능이 매우 미약하고, HBase는 관리 UI까지 이미 제공한다. 거기에 HBase는 Hadoop 기반으로 Map&Reduce를 적용하기가 용이하지만, Cassandra는 데이타가 논리적으로 나누어지지 않기 때문에 Map&Reduce를 이용한 데이타 Processing등에는 용이하지 않다.

결과적으로 Local 데이타 Stroage로 간단하게 사용하려면 Cassandra가, 그게 아니라 지역간의 분산구조나 BI와 같은 데이타 Processing이 필요하다면 HBase가 적절할것 같다.

P.S. 어디까지나 개인의견임
그리드형