Как строить надежные, стабильные и отказоустойчивые IT-системы: главное об SRE и SLO
К современным IT-системам предъявляются очень жесткие требования — они должны быть доступны практически 24/7, чтобы выдерживать конкуренцию на рынке. Для обеспечения такой надежности и доступности существует особый подход — SRE, Site Reliability Engineering.
Меня зовут Иван Круглов, я работаю в компании Databricks и уже несколько лет занимаюсь построением и поддержкой сложных и крупных IT-систем. Хочу рассказать, что такое подход SRE, зачем он нужен, какие критерии надежности существуют и как их определять.
Читать далееИсточник: Хабрахабр