Операция «Дедупликация»: передовые стратегии в битве с клонами

222

Создание бэкапов и аварийное восстановление данных создаёт пиковую нагрузку на системы хранения и сетевое оборудование. По мере роста объёма информации на источнике закономерно увеличивается как время её резервного копирования, так и требования к вычислительным ресурсам. Хитрость оптимизации состоит здесь в том, чтобы не делать лишнюю работу и найти способ эффективнее вычислять клоны уже имеющихся данных. Выполнять такую оптимизацию призваны алгоритмы дедупликации, которые постоянно оптимизируют с учётом реальных бизнес-задач современных компаний.

Во время дедупликации анализируются все данные, представленные как блоки определённой длины. За счёт поблочного сравнения можно чаще находить повторы и сразу исключать их из обработки. В зависимости от выбранных алгоритмов, дедупликация может как снижать требования к объёму хранилища, так и уменьшать трафик, повышая скорость резервного копирования.

Дедупликация сокращает время большинства операций за счёт устранения избыточности. В зависимости от деталей реализации, дедупликация может происходить как на уровне исходных данных, так и их резервных копий. В любой схеме бэкапа на первом этапе резервного копирования приходится считывать массу данных с источника. В схеме с полным бэкапом каждый раз считываются и передаются в хранилище все данные целиком. При обновлении инкрементного или дифференциального бэкапа сначала производится поиск только новых или изменившихся файлов на источнике. В итоге это снижает трафик, но увеличивает затраты на предварительную обработку.

Предварительный анализ данных требует сравнения атрибутов каждого файла и значений их хеш-функций на источнике и в хранилище. Для этого используется база дедупликации, хранящая значения контрольных сумм для каждого блока данных. В большинстве систем резервного копирования размер обрабатываемых блоков фиксированный, поэтому база получается довольно объёмной, и её слишком затратно размещать на быстрых накопителях.

В новых версиях Acronis Backup и Acronis Backup Advanced размер блоков динамически изменяется в пределах 256 КБ как для образов дисков или логических разделов, так и для отдельных файлов. Такой подход позволяет в разы снизить требования к объёмам памяти и повысить скорость обработки. Если раньше на дедупликацию терабайта уникальных данных дополнительно требовалось около трёх гигабайт оперативной памяти, то сейчас (начиная с версии 11.7) – всего 128 мегабайт. Сама база дедупликации прибавляет около 500 мегабайт на каждый терабайт уникальных данных, поэтому без существенных затрат её можно разместить на быстром диске с прямым подключением или даже на SSD-RAID.

Весь процесс дедупликации происходит в два этапа. На первом из них агент резервного копирования выполняет поиск дублирующихся блоков на самом источнике данных. На втором дедупликация автоматически запускается уже в хранилище бэкапов после создания очередной резервной копии. Это фоновый процесс, оптимизирующий использование свободного места и повышающий в дальнейшем скорость всех последующих операций.

Наиболее оправдана дедупликация в режиме полного резервного копирования. Существенную экономию времени и ресурсов она также обеспечивает в схемах инкрементного бэкапа. Она особенно актуальна в том случае, если в локальной сети предприятия часто меняется не столько содержимое большей части файлов, сколько их имена и размещение.

При всех преимуществах дедупликации, иногда от неё целесообразно отказываться. Например, она бесполезна при резервном копировании зашифрованных файлов и мало оправдана для бэкапа баз данных. При использовании качественных средств криптографии малейшее изменение исходных данных полностью меняет их представление в зашифрованном виде. Поэтому в них заведомо не будет дублирующихся блоков. Базы данных тоже изначально обладают низкой степенью избыточности и очень специфическим форматом, делающим все изменения в них уникальными.

Однако на большинстве типичных задач дедупликация позволяет получать значительный выигрыш по объёму и скорости операций с бэкапами. Начиная с версии 11.7 она позволяет обрабатывать в 24 раза больше данных при том же объеме выделяемой памяти, и более чем на треть ускоряет аварийное восстановление данных.

Выводы:

  • Дедупликация исключает из обработки повторяющиеся блоки данных, за счёт чего позволяет экономить трафик и место в резервном хранилище.
  • Методы дедупликации дают максимальный выигрыш в схемах с полным и инкрементным резервным копированием.
  • При обработке баз данных и зашифрованных файлов дедупликацию можно отключить.
  • Процесс дедупликации происходит как на уровне источника данных, так и на уровне хранилища резервных копий.
  • Алгоритмы дедупликации могут существенно отличаться даже в разных версиях одного программного продукта.
  • В Acronis Backup и Acronis Backup Advanced v.11.7 за счёт новых алгоритмов дедупликации достигается многократная экономия ресурсов, а время аварийного восстановления данных сокращается более чем на треть.