오픈소스 모니터링 툴 - Prometheus #2 Hello Prometheus
프로메테우스
프로메테우스에 대해서, 이해하기 위해서 간단한 테스트를 진행하는데, 테스트는 http://www.katacoda.com/ 를 이용하였다. 웹상에서 쿠버네티스, 프로메테우스,텐서플로우등 다양한 기술을 별도의 설정이나 서버없이 해볼 수 있기 때문에, 기술에 대한 개념을 잡는데 매우 유용하다.
설정 파일 정의
프로메테우스의 설정은 prometheus.yml 파일에 정의 한다. 아래는 간단한 예제이다.
global:
scrape_interval: 15s
evaluation_interval: 15s
scrape_configs:
- job_name: 'prometheus'
static_configs:
- targets: ['127.0.0.1:9090', '127.0.0.1:9100']
labels:
group: 'prometheus'
scrap_interval은 타겟 시스템으로 부터 메트릭을 읽어오는 주기이다. 읽어온 메트릭을 기반으로 룰에 따라서 alert을 보낼 수 있는데, alert을 보낼지 말지 메트릭을 보고 판단하는 주기가 evaluation_interval 이다.
scrap_configs 부분이 데이타 수집 대상과 방법을 정의하는 부분인데, 먼저 job에 대한 개념을 이해해야 한다. job은 대상 그룹에서 메트릭을 수집해오는 내용을 정의하는데, job은 하나의 시스템이 아니라 특성이 같은 하나의 시스템 그룹정도의 개념으로 생각하면 된다. 예를 들어 오토 스케일링 그룹으로 묶여 있는 웹서버 1,2,3을 수집한다고 했을때, 이 3개의 메트릭을 수집하는 것이 하나의 job으로 정의되고, 각각의 서버를 instance라고 한다.
위에서는 127.0.0.1:9090, 127.0.0.1:9100 에서 메트릭을 수집하도록 job을 하나 정의 했는데, prometheus 가 기동되고 있는 서버로 부터 메트릭을 읽어오도록 설정하였다. 앞에는 프로메테우스 시스템 자체의 메트릭이고, 두번째는 프로메테우스가 기동되고 있는 VM(또는 서버,또는 도커)의 시스템 메트릭을 수집하도록 정의하였다.
프로메테우스 서버와 node exporter 기동
설정의 끝났으면 프로메테우스 서버를 기동하다. 설치에는 여러가지 방법이 있지만, 간단하게 도커 이미지를 이용하여 기동하였다.
docker run -d --net=host \
-v /root/prometheus.yml:/etc/prometheus/prometheus.yml \
--name prometheus-server \
prom/prometheus
프로메테우스를 기동하였으면, 프로메테우스 모니터링 대상이 되는 프로메테우스의 노드(VM)의 지표를 수집하여 프로메테우스로 전송하는 node exporter를 설치해서 기동해야 한다. node exporter는 머신의 CPU,메모리,네트웍등과 같은 메트릭을 수집해서 프로메테우스가 가지고 갈 수 있도록 한다.
마찬가지로 도커 이미지로 기동하는데, quay.io/prometheus/node-exporter 의 이미지를 사용한다.
docker run -d \
-v "/proc:/host/proc" \
-v "/sys:/host/sys" \
-v "/:/rootfs" \
--net="host" \
--name=prometheus \
quay.io/prometheus/node-exporter:v0.13.0 \
-collector.procfs /host/proc \
-collector.sysfs /host/sys \
-collector.filesystem.ignored-mount-points "^/(sys|proc|dev|host|etc)($|/)"
node exporter 가 제대로 작동하는지 확인하려면,
% curl https://{프로메테우스 서버 IP}:9100/metrics
명령을 실행해보면 다음과 같이 메트릭 정보들이 리턴되는 것을 확인할 수 있다.
흥미로운것이 metric 수집을 HTTP GET 방식으로 하도록 되어 있다.
이 관점에서 봤을때 구현이 매우 쉬울것 같은 장점도 있고, 별도의 포트를 오프하지 않아도 되는 장점은 있지만, 보안적으로 어떻게 접근 제어등을 할지는 나중에 별도로 한번 찾아봐야 하지 않을까 싶다.
# HELP go_gc_duration_seconds A summary of the GC invocation durations.
# TYPE go_gc_duration_seconds summary
go_gc_duration_seconds{quantile="0"} 3.9293000000000005e-05
go_gc_duration_seconds{quantile="0.25"} 3.9293000000000005e-05
go_gc_duration_seconds{quantile="0.5"} 5.0119000000000006e-05
go_gc_duration_seconds{quantile="0.75"} 5.0119000000000006e-05
go_gc_duration_seconds{quantile="1"} 5.0119000000000006e-05
go_gc_duration_seconds_sum 8.9412e-05
go_gc_duration_seconds_count 2
# HELP go_goroutines Number of goroutines that currently exist.
# TYPE go_goroutines gauge
go_goroutines 8
# HELP go_memstats_alloc_bytes Number of bytes allocated and still in use.
# TYPE go_memstats_alloc_bytes gauge
go_memstats_alloc_bytes 6.234016e+06
# HELP go_memstats_alloc_bytes_total Total number of bytes allocated, even if freed.
# TYPE go_memstats_alloc_bytes_total counter
대쉬보드 접속
프로메테우스와 exporter 가 기동이되었으면, 메트릭이 제대로 수집이 되는지 확인하자.
http://{프로메테우스 서버 ip}:9090 에 접속하면, 대쉬보드가 나오는데, 검색 쿼리 부분에 보고 싶은 메트릭에 대한 쿼리를 넣으면, 테이블이나 그래프 형태로 볼 수 있다.
아래는 node_cpu 항목을 넣어서 프로메테우스가 기동 중인 서버의 CPU 사용률을 모니터링해서 그래프로 나타낸 화면이다.