SRE #5 - Error budget

클라우드 컴퓨팅 & NoSQL/운영 & Devops

SRE #5 - Error budget

Terry Cho 2019. 5. 20. 00:24

SRE #5 - Error budget

조대협 (http://bcho.tistory.com)

SLI와 SLO에 대한 개념을 이해 했으면 다음은 Error budget에 대한 개념을 이해해야 한다.

Error budget은 단순하게 생각하면

Error budget = [100% - availability target]

와 같다. 예를 들어 설명하면, 한달에 SLO가 99.999%를 목표치로 설정했다면, 한달간 SLO는 0.001%의 다운 타임을 허용하게되고, 이 0.001%가 Error budget이된다.

위의 표는 가용성에 따라서, 허용되는 장애 시간을 정리해놓은 표이다.앞의 예제에서 99.999% 가용률을 목표로 봤을 때 허용되는 장애시간은, 0.001%로 다운 타임은 한달에 25.9 초만 허용된다.

그러면 이 시간을 어떻게 활용하는가? 허용되는 다운 타임에 한해서 예고된 다운 예를 들어서 배포나 시스템 업데이트를 수행한다. 만약에 남은 Error budget이 없다면, 새로운 기능에 대한 업데이트를 중지하고, 시스템의 가용성을 높이기 위해서 자동화나 프로세스 개선등의 작업등을 한다.

Error budget의 차감은 앞에서 이야기 한것 처럼 계획된 다운 타임이 아니라, 장애등에 의한 계획 되지 않은 다운 타임에도 차감을 한다.

Error budget을 활용하게 되면 개발팀 입장에서도 책임감을 가질 수 있는데, 예를 들어 코드의 허용된 Error budget 안에서만 배포를 할 수 있게 되기 때문에, 한달에 2번할 배포를 한번 하게 되거나 (횟수를 줄이는 것에 중점을 두지 말고, 그 만큼 신중해진다는 의미에 중점을 두기 바란다. ) Error budget을 차감당하지 않도록 하기 위해서 테스트를 좀 더 꼼꼼하게 할 수 있다.

Error budget 을 다 소모하면, Error budget을 복구하는 여러가지 방법이 있겠지만, 이건 팀에서 (임원포함) 정책적으로 동의해서 결정해야 한다. 앞에 예에서 언급한것과 같이 새로운 기능 배포를 멈추고 안정화 작업에 집중을 하는 방법도 있고, 또는 Error budget이 0이 된 경우 해당 엔지니어나 개발팀에 대해서 강도 높은 코드 리뷰를 다시 받도록 하는 방법등 여러가지 방법이 있다.

예전 김요섭님 강의에 몇가지 사례가 있으니 참고하면 좋다.

그리드형

저작자표시 비영리 변경금지

'클라우드 컴퓨팅 & NoSQL > 운영 & Devops' 카테고리의 다른 글

리눅스 방화벽과 NAT를 위한 ipTables (0)	2019.11.28
SRE #6 - 운영에서 반복적인 노가다 Toil (0)	2019.05.20
SRE #4-예제로 보는 SLI/SLO 정의 방법 (0)	2019.05.14
SRE #3-SRE의 주요 지표 SLI/SLO (Service Level Indicatior, Service Level Objectives) (1)	2019.05.12
SRE #2-SRE는 어떻게 일하는가? (0)	2019.05.10

현재글SRE #5 - Error budget

실리콘밸리에서 살고 있는 평범한 엔지니어 입니다 이메일-bwcho75골뱅이지메일 닷컴. 아키텍처 디자인, 머신러닝 시스템, 빅데이터 설계, DEVOPS/SRE, 애자일 방법론,쿠버네티스,마이크로서비스, ChatGPT 생성형 AI , CTO 등에 대한 기술 멘토링과 강의 진행합니다.

조대협, 초보, Kubernetes, 빅데이타, 딥러닝, node.js, tensorflow, 튜토리얼, 강좌, 텐서플로우, 쿠버네티스, 클라우드 컴퓨팅, Machine Learning, 구글, cloud, 클라우드, google, 머신러닝, 소개, Tutorial,

Today :
Yesterday :

조대협의 블로그