Когда дело доходит до аварийного восстановления, двумя критически важными показателями для организаций являются целевая точка восстановления (RPO) и целевое время восстановления (RTO), которые определяют объем потери данных и время, необходимое для восстановления данных соответственно. Четкое осознание вашего уровня толерантности к риску в связи с этими проблемами помогает гарантировать, что ваша стратегия резервного копирования и восстановления соответствует вашим бизнес-целям.
Давайте рассмотрим RPO и RTO и решающую роль, которую они играют в плане аварийного восстановления вашей организации.
Что такое RPO?
Целевая точка восстановления (RPO) — это максимальный объем потери данных, приемлемый для организации. Терпимость к потере данных часто измеряется временем.
Организациям, обрабатывающим конфиденциальные данные, например, в финансовом, государственном или медицинском секторах, возможно, придется учитывать нормативные требования при установке своих RPO.
Бизнес-требования также могут влиять на RPO. Например, платежные шлюзы, почтовые серверы и базы данных акций могут иметь RPO, равную минуте или меньше. Напротив, база данных блога компании, ориентированного на потребителя, может иметь 24-часовое RPO.
Что такое РТО?
Целевое время восстановления (RTO) — это максимальная продолжительность времени, в течение которого компьютер, система, сеть или приложение могут быть недоступны после сбоя. RTO чаще всего измеряется в секундах, минутах, часах или днях.
У почтового сервера RTO может составлять до четырех часов, поскольку другие почтовые серверы обычно повторяют попытку доставки, если сервер находится в автономном режиме в течение короткого времени. Напротив, банк, обрабатывающий большой объем транзакций, может установить RTO всего в несколько секунд для любых финансовых приложений.
RTO устанавливаются в зависимости от приложения и его влияния на бизнес. Потеря данных и сбои в работе влияют на получение дохода, а количественная оценка последствий сбоя является ключевым фактором при определении целевого времени восстановления и настройки среды для минимизации времени восстановления.
В чем разница между RPO и RTO?
И RPO, и RTO выражаются как периоды времени. RPO учитывают устойчивость организации к потере данных и ориентированы на прошлое, поскольку они измеряются тем, насколько старыми должны быть восстановленные данные. RTO влияют на любые сбои или сбои, которые могут повлиять на способность бизнеса генерировать доход, и являются дальновидными, поскольку они измеряют будущие приращения времени в случае сбоя.
Определение RPO поможет вам определить частоту резервного копирования. Например, нулевой RPO потребует частого создания снимков или инкрементального резервного копирования. Более высокие допуски позволяют реже выполнять резервное копирование и, следовательно, снижать затраты на хранение.
RTO помогает определить архитектуру ваших систем. Если некоторое время восстановления приемлемо, можно использовать одну систему, восстановленную из образа. Когда желаемое RTO равно нулю или близко к нему, становятся необходимыми инвестиции в резервирование, балансировку нагрузки и варианты аварийного переключения.
Установка соответствующих значений RTO и RPO особенно важна для корпоративных организаций, поскольку любые сбои или сбои в работе данных могут иметь прямое влияние на продажи и репутацию бренда, а также могут негативно повлиять на доверие и удержание клиентов.
Важность RPO и RTO в аварийном восстановлении
Цели восстановления являются ключевыми показателями для построения стратегии аварийного восстановления . Они помогают количественно оценить уровень потери или сбоя данных, который вы готовы принять, чтобы вы могли сформулировать экономичную и надежную систему резервного копирования и восстановления.
Устаревшие резервные копии или резервные копии, восстановление которых занимает слишком много времени, малопригодны для вашей организации. Знание того, что вы можете восстановить нормальную работу в течение разумного времени, дает больше душевного спокойствия.
Крайне важно понимать разницу между RPO и RTO, а также роль, которую каждый показатель играет в формулировании плана аварийного восстановления . Знание того, насколько допустима потеря данных (если таковая вообще имеется) и как долго вы можете терпеть недоступность службы, помогает вам принимать решения, когда речь идет о решениях для резервного копирования и рабочем процессе восстановления.
Как рассчитать целевую точку восстановления?
Чтобы рассчитать RPO, учитывайте следующее:
- Частота изменения данных: RPO должна, как минимум, соответствовать частоте изменения ваших данных. Это гарантирует, что разница между новыми данными и резервными данными будет минимальной, что снижает риск потери.
- Согласуйте RPO с планами непрерывности бизнеса (BCP). Отдельные бизнес-процессы могут иметь разные RPO в зависимости от критичности их данных. Некоторым приложениям требуется постоянный подход к обеспечению непрерывности бизнеса , в то время как другие более терпимы к потере данных.
- Учитывайте отраслевые стандарты. Передовые методы различаются в разных отраслях, но примите во внимание следующие практические правила для RPO :
- От 0 до 1 часа: кратчайшие сроки для критически важных для бизнеса рабочих нагрузок и данных большого объема, динамичных или трудно воссоздаваемых.
- От 1 до 4 часов: для приложений, считающихся полукритическими, где допустима небольшая потеря данных.
- От 4 до 12 часов: для данных, которые обновляются нечасто (например, ежедневно), поэтому допускается создание случайных снимков
- От 13 до 24 часов: самый длительный показатель RPO, который до сих пор часто наблюдается для редко обновляемых данных, которые важны, но не считаются критическими.
Документируйте процесс принятия решений. После принятия решения о RPO обеспечьте их утверждение ИТ-отделом и заинтересованными сторонами.
Регулярно проверяйте RPO, чтобы убедиться, что они по-прежнему актуальны и уместны. При необходимости настройте их, чтобы обеспечить максимальную защиту ваших данных.
Расчет риска
RPO и RTO — это расчеты риска, позволяющие оценить, сколько данных компания может потерять и как долго она может терпеть отсутствие сети после инцидента. Эти цели восстановления могут измеряться в секундах, часах, минутах или днях, в зависимости от бизнес-процесса. Количественная оценка риска — это сложный процесс, в котором необходимо учитывать приложение, набор данных и цели компании.
Все заинтересованные стороны должны иметь возможность внести свой вклад в свою устойчивость к риску потери данных и простоев. Если одна ИТ-организация обслуживает бизнес и отвечает за внедрение, управление и мониторинг любого решения для резервного копирования и восстановления, это решение должно удовлетворять потребности наиболее важных бизнес-процессов.
Как определить значения RTO и RPO для ваших приложений
Чтобы определить RTO вашей организации, рассмотрите:
- Стоимость простоя за минуту, час или день
- Любые существующие соглашения об уровне обслуживания для восстановления, заключенные с клиентами.
- Какие приложения имеют наивысший приоритет
- Порядок восстановления критически важных приложений
Чтобы определить RPO, рассмотрите:
- Допустима ли потеря данных в любом сценарии
- Влияние потери данных на ваш бренд
- Любые юридические последствия
- Любые финансовые последствия
Более сложный, но важный фактор, который следует учитывать при разработке стратегии, — это то, какое негативное влияние потеря данных или простои могут оказать на имидж вашего бренда. Зачастую это сложно выразить в денежном выражении, но значительные простои или потеря данных могут привести к отсутствию доверия со стороны клиентов.
Сопоставьте вышеуказанные проблемы со стоимостью решений по передаче, хранению и восстановлению данных, чтобы найти стратегию, которая лучше всего соответствует вашим потребностям.
Оценивайте каждое приложение или бизнес-процесс независимо. Обращайтесь к заинтересованным сторонам на протяжении всей этой части процесса и выбирайте более быстрое восстановление и ограничение потери данных, если вы не уверены.
Лучшие практики по оптимизации RPO и RTO
Чтобы оптимизировать RPO и RTO, примените следующие рекомендации:
Частое резервное копирование
Чтобы создать среду с невероятно низким значением RPO, можно использовать технологию непрерывной защиты данных Veeam и другие резервные копии с учетом приложений или инкрементальные резервные копии для частого создания снимков. Для менее важных приложений установите соответствующую частоту резервного копирования. Автоматизируйте процесс резервного копирования, включая проверку целостности копии, для вашего спокойствия.
Частые полные резервные копии влекут за собой значительные накладные расходы с точки зрения затрат на хранение. Инкрементное резервное копирование снижает затраты за счет записи изменений между каждым резервным копированием.
Сохраняйте несколько резервных копий на разных типах носителей. В идеале у вас также должна быть неизменяемая внешняя резервная копия для защиты от потери данных в результате атак вредоносных программ или программ-вымогателей.
Резервирование и аварийное переключение
Минимизируйте время простоя за счет резервирования и аварийного переключения критически важных служб. Эта практика не заменяет резервное копирование, но может защитить от сбоев или простоев приложений, которые в противном случае могли бы привести к прерыванию обслуживания.
Использование определенных RAID-массивов может обеспечить уровень избыточности, который может снизить риск потери данных и позволяет реагировать на сбои оборудования. Опять же, это просто дополнительный уровень защиты, а не замена резервного копирования в вашем плане обеспечения непрерывности бизнеса.
Если данные и рабочие нагрузки реплицируются в резервных облачных сервисах, по-прежнему существует риск повреждения или потери данных, например, из-за программ-вымогателей. Технология непрерывной защиты данных Veeam — это один из инструментов, который может снизить риск потери данных на критически важных виртуальных машинах.
Тестирование и проверка
Оценка приоритетов RPO и RTO и постановка целей — это только начало. Чтобы быть уверенным в способности вашей организации достичь этих целей, любые методы резервного копирования и восстановления должны регулярно проверяться.
Существует множество передовых методов тестирования целей восстановления, но наиболее важным является фактическое выполнение этих тестов. Крайне важно инвестировать в ресурсы и время, необходимые для завершения процесса тестирования. Также имейте в виду, что адекватное тестирование может потребовать хранения, вычислений, сети и времени.
При планировании тестов восстановления учитывайте следующее:
- Оптимальный график тестирования для соответствия требованиям SLA
- Время, необходимое для восстановления данных или рабочей нагрузки до рабочего состояния.
- Требования к хранилищу для восстановления данных
- Требования к хранилищу и вычислительным ресурсам для критических рабочих нагрузок
- Инструменты автоматизации и оркестрации, обеспечивающие возможность настройки и выполнения тестов без ошибок.
Приоритетное восстановление
Подумайте, какие рабочие нагрузки являются критически важными, и расставьте их приоритеты при разработке стратегии восстановления. Запуск критически важных приложений на виртуальных машинах может помочь ускорить процесс восстановления. Например, восстановление данных о клиентах или финансовых отчетов будет более приоритетным, чем восстановление базы данных внутренних учебных материалов.
Автоматизация
Автоматизация позволяет создавать резервные копии без вмешательства человека. Запланированное резервное копирование снижает риск потери данных. Современные инструменты защиты данных поддерживают автоматическое тестирование и оркестрацию, гарантируя отсутствие ошибок и возможность восстановления резервных копий.
Не рассматривайте автоматическое резервное копирование как шанс успокоиться. Регулярно проверяйте процессы резервного копирования, чтобы убедиться, что они охватывают все критически важные для бизнеса данные.
Внешнее хранилище
Правило резервного копирования 3-2-1 гласит:
- Должно быть как минимум три копии данных.
- Как минимум на двух разных носителях
- Одна копия находится за пределами сайта
Это гарантирует, что данные защищены не только от случайного удаления или повреждения, но и от потери в результате катастрофических событий, таких как пожар или наводнение, которые могут уничтожить локальную копию, хранящуюся на съемном носителе или хранилище NAS.
Постоянный мониторинг и аналитика
В любом ИТ-решении мониторинг и аналитика позволяют получить представление о производительности вашей инфраструктуры. Для решений резервного копирования и восстановления существует множество показателей, которые можно отслеживать:
- Тестирование резервных копий, чтобы убедиться, что они выполнены без ошибок.
- Мониторинг инфраструктуры для выявления проблем, которые могут повлиять на успех резервного копирования.
- Анализ тенденций использования для предотвращения будущих проблем с емкостью резервного хранилища.
Улучшите свою стратегию аварийного восстановления
RPO и RTO являются важными мерами при определении стратегии резервного копирования и восстановления. Учитывайте свои допуски на потерю данных (RPO) и время простоя (RTO) при балансировании бюджета и доступных ресурсов.
Всегда помните о лучших практиках и взаимодействуйте с заинтересованными сторонами в организации, чтобы ваша стратегия аварийного восстановления соответствовала потребностям бизнеса. Очень важно автоматизировать процесс частого создания резервных копий и их тестирования. Также полезно принять другие меры предосторожности, например, обеспечить резервирование для критически важных приложений.
|
Внимание! Данная статья не является официальной документацией.Использование информации необходимо выполнять с осторожностью, используя для этого тестовую среду.
Если у вас есть вопросы о построении современных систем резервного копирования, репликации, синхронизации данных и защиты от программ вымогателей обратитесь в нашу компанию для получения консультации о современных технологиях резервного копирования и восстановления данных. Наша компания имеет более чем 20-летний опыт в этой области. |
Десять лучших практик Veeam
- Резервное копирование Veeam для Proxmox
- Учимся использовать Multi-Cloud Management
- Лучшие практики виртуализации высокой доступности
- Безопасность Microsoft Azure: как защитить свою облачную среду
- Резервное копирование Microsoft 365 для малого бизнеса: ключевые стратегии
- Red Hat OpenShift и Kasten K10: влияние на внедрение Kubernetes
- Интеграция между AWS, Microsoft Azure и Google Cloud
- Использование виртуализации Oracle OLVM и oVirt
- NIST Cybersecurity Framework (CSF) 2.0 - детальная информация
- Что такое Microsoft Data Loss Prevention (DLP)