Скачать SRE. Рецепты выживания в продакшне для инженера по надежности [Наталья Савенкова]

Sky90 · 5 Авг 2024

Складчина: SRE. Рецепты выживания в продакшне для инженера по надежности [Наталья Савенкова]

Надежность умирает последней. Главное, чтобы она вообще была. Это можно принять за шутку, если не знать, насколько все серьезно.

Инженер по надежности, с двадцатилетним опытом работы в IT-индустрии, дает 61 полезный совет коллегам, имеющим дело с крупными, а также небольшими системами. Правила написаны емко и по существу, с нотками иронии и юмора, поэтому, даже несмотря на использование профессионального сленга, «пособие для выживания» читается легко. Рецепты основаны на многолетней практике, собственных ошибках и чужих граблях, и они могут стать незаменимой инструкцией для тех, «кто в теме».

Спойлер: список советов
1. Сервис без вмешательства не переживает отключение части свитчей в дата-центре – это плохой сервис
2. Если какую-то процедуру делать страшно – делайте ее чаще
3. Если мониторинг не пишет о проблемах – проверьте, возможно, он не работает вообще
4. Регулярно проверяйте все редко используемые аварийные средства доступа
5. Ходить на чужие разборы полезно
6. Если результаты нагрузочного тестирования всегда одинаковые – это плохо
7. Регулярно проверяйте всю редко используемую автоматику
8. Рандомизируйте учения
9. Проектируйте failover смолоду
10. Мониторинг трафика в диапазоне
11. Мониторинг среднего и min/max
12. Не сажайте слона и моську в одну базу
13. Расселяйте сервисы – критичные и непредсказуемые
14. Exponential backoff
15. Учитесь деградировать заранее
16. Кеши и заглушки
17. Fallback, или «Последний шанс»
18. Прогнозируйте нагрузку на смежников
19. Прогнозируйте неответы реалтаймовых источников
20. Правильно экспериментируйте с сетью
21. Никому не верьте
22. Стандартизируйте процессы
23. Инструкции для «Людочки»
24. Не пытайтесь самостоятельно защититься от DDoS и готовьтесь к нему заранее
25. Все обновления базы пробуйте на тестовом стенде
26. Катите фичу отключенной
27. Исследуйте post-mortem’ы
28. Устраняйте возможность массовых операций
29. Правильно рассчитывайте запас мощности
30. Считайте запас критического пути
31. Заведите запасной мониторинг
32. Умейте быстро отключить любой компонент
33. Ставьте маленькие дефолты
34. Логируйте сквозной идентификатор запроса
35. Соблюдайте рекомендации СИБ
36. Доступность из внешнего мира
37. Аварийные и предупреждающие оповещения
38. Whitelist vs Blacklist
39. Debug-mode
40. Вечная жизнь скриптов
41. Консистентность версий…
42. Делайте бэкап перед вмешательством
43. Храните все в VCS
44. Готовьте заранее план отхода
45. Если что-то кажется странноватым – вам не кажется
46. Ответственны все
47. Регулярно проверяйте схемы rollback'ов
48. Оно нерезиновое
49. Доверяйте интуиции
50. Соблюдайте регламент
51. Сокращайте критические секции проводимых работ
52. Проводите работы на спаде трафика
53. Календарь плановых запусков и работ
54. Зафиксируйте термины
55. Групповая ответственность
56. Работа в полях
57. Нативные средства
58. Самодостаточная версия
59. Факапный чек-лист
60. Сделайте мониторинг на все, где есть срок годности
61. Знайте свои деструкторы в состоянии стресса

Цена 990 руб.
Формат: epub, fb2, fb3, ios.epub, mobi, pdf, txt, zip

Для просмотра скрытого содержимого вы должны зарегистрироваться

Скачать SRE. Рецепты выживания в продакшне для инженера по надежности [Наталья Савенкова]

Sky90

Возможно, Вас ещё заинтересует: