대용량 시스템 2

분산 대용량 큐-Apache Kafka에 대한 검토

분산 대용량 큐-Apache Kafka에 대한 검토 내용 정리 실시간 빅데이타 분석 아키텍쳐를 검토하다가 아파치 스톰을 보다보니, 실시간 데이타 스트림은 큐를 이용해서 수집하는 경우가 많은데, 데이타의 양이 많다 보니 기존의 큐 솔루션으로는 한계가 있어서 분산 대용량 큐로 아파치 카프카(Kafka)가 많이 언급된다.그래서, 아키텍쳐를 대략 보고, 실효성에 대해서 고민을 해봤는데, 큐의 기능은 기존의 JMS나 AMQP 기반의 RabbitMQ(데이타 기반 라우팅,페데레이션 기능등)등에 비해서는 많이 부족하지만 대용량 메세지를 지원할 수 있는 것이 가장 큰 특징이다. 특히 분산 환경에서 용량 뿐 아니라, 복사본을 다른 노드에 저장함으로써 노드 장애에 대한 장애 대응 성을 가지고 있기 때문에 용량에는 확실하게 ..

분산 처리 오픈 소스 Gearman 퀵리뷰

정리는 아래 PPT에 잘되어 있고 쉽게 요약하면, Async Queue + Working 서버다 Request를 Queuing 했다가, 뒤의 Work Process로 넘겨줘서 작업을 비동기로 처리해주는 형식이고 예전 Tuxedo와 같은 TP 모니터와 유사한 구조를 갖는다. Hadoop과 같은 Map & Reduce 의 분산 처리 구조와도 비슷하고 야후등의 레퍼런스도 있고 memcached나 mogileFS를 만든 danga.org의 작품이기도 하다. 일단 단순성이 높고, 사용성도 편리해서 대용량 분산 처리에 사용하기는 편할듯. 단 예전 TP 모니터에서 봤듯이, 작업 배분을 위한 Worker Process들의 Registration을 처리하는 BBL과 같은 Registration Table에 별도의 성능 ..