SRE(Site Reliability Engineering)란?
1. SRE/DEVOPS의 개념과 SRE는 무엇을 하는가?
SRE는 클래스 DevOps는 구현
- 지표 정의와 모니터링
- 하드웨어 리소스 가용량 계획
- 형상 변경 관리
- 장애 처리
- 문화 확립
2. SRE는 어떻게 일하는가?
- 부서 간 단절 줄이기(오너쉽 공유)
- 정상적으로 실패받아들이기(에러 버짓 등의 개념 도입)
- 점진적인 변경 구현(작은 단위 변경으로 리스크 최소화)
- 자동화 및 툴링(수작업을 줄여서 리스크 최소화 및 업무 절감)
- 모든것을 수치화(지표뿐만 아니라, 수동 작업시간 장애시간 등 모든 것을 데이터화)
3. SRE의 주요 지표 SLI/SLO
SLI(Service Level Indicator)
- 서비스에 대한 수준을 측정하여, 정량적으로 정의한 지표
- 응답시간
- 에러율
- 처리량
- 가용성
- 내구성
SLO(Service Level Objective)
- SLI로 정의한 지표의 목표 지표
- 최소/최대 범위 지정
- 여유 값을 둘 것
- 과도하게 하지 말 것
4. 예제로 보는 SLI/SLO 정의 방법
5. Error budget
6. 운영에서 반복적인 노다다 Toil
SRE - #1 SRE/DEVOPS의 개념과 SRE는 무엇을하는가?
Site Reliability Engineering(SRE) #1 SRE/DEVOPS의 개념 조대협 (http://bcho.tistory.com) 배경 Devops는 운영팀과 개발팀을 하나의 팀으로 묶어놓고 전체적인 개발 사이클을 빠르게 하고자 하는 조직 구조이자..
bcho.tistory.com
SRE #2-SRE는 어떻게 일하는가?
SRE는 어떻게 일하는가? 조대협 (http://bcho.tistory.com) 이글은 앞의 글 "SRE/DEOPS의 개념과 SRE는 무엇을 하는가?" (https://bcho.tistory.com/1325) 와 연결된 글입니다. How SRE does Devops? 그럼 SRE들은..
bcho.tistory.com
SRE #3-SRE의 주요 지표 SLI/SLO (Service Level Indicatior, Service Level Objectives)
SRE #3-SRE 주요 지표 (SLI/SLO) 조대협 (http://bcho.tistory.com) 이글은 앞글 (https://bcho.tistory.com/1327)과 연결 됩니다. 앞에 까지 SRE가 무엇이고, SRE가 하는일은 무엇이며, 어떻게 그 일을 수행 하는..
bcho.tistory.com
SRE #4-예제로 보는 SLI/SLO 정의 방법
SRE #4-예제로 살펴보는 SLI/SLO 정의 방법 조대협 (http://bcho.tistory.com) 앞에서 SRE의 주요 지표인 SLO/SLI의 개념에 대해서 설명하였는데, 그러면 실제 서비스에서는 어떻게 SLO/SLI를 정의하는지에 대해서..
bcho.tistory.com
SRE #5 - Error budget
SRE #5 - Error budget 조대협 (http://bcho.tistory.com) SLI와 SLO에 대한 개념을 이해 했으면 다음은 Error budget에 대한 개념을 이해해야 한다. Error budget은 단순하게 생각하면 Error budget = [100% - av..
bcho.tistory.com
SRE #6 - 운영에서 반복적인 노가다 Toil
SRE #6-운영에서 반복적인 노가다 Toil 조대협 (http://bcho.tistory.com) Toil Toil의 사전적인 뜻은 “노역"이라는 뜻을 가지고 있는데, 비속어를 사용해서 표현하자면 운영 업무에서의 “노가다" 정도로 이해하..
bcho.tistory.com