Операция «Дедупликация»: передовые стратегии в битве с клонами

222

Создание бэкапов и аварийное восстановление данных создаёт пиковую нагрузку на системы хранения и сетевое оборудование. По мере роста объёма информации на источнике закономерно увеличивается как время её резервного копирования, так и требования к вычислительным ресурсам. Хитрость оптимизации состоит здесь в том, чтобы не делать лишнюю работу и найти способ эффективнее вычислять клоны уже имеющихся данных. Выполнять такую оптимизацию призваны алгоритмы дедупликации, которые постоянно оптимизируют с учётом реальных бизнес-задач современных компаний.

Во время дедупликации анализируются все данные, представленные как блоки определённой длины. За счёт поблочного сравнения можно чаще находить повторы и сразу исключать их из обработки. В зависимости от выбранных алгоритмов, дедупликация может как снижать требования к объёму хранилища, так и уменьшать трафик, повышая скорость резервного копирования.

Дедупликация сокращает время большинства операций за счёт устранения избыточности. В зависимости от деталей реализации, дедупликация может происходить как на уровне исходных данных, так и их резервных копий. В любой схеме бэкапа на первом этапе резервного копирования приходится считывать массу данных с источника. В схеме с полным бэкапом каждый раз считываются и передаются в хранилище все данные целиком. При обновлении инкрементного или дифференциального бэкапа сначала производится поиск только новых или изменившихся файлов на источнике. В итоге это снижает трафик, но увеличивает затраты на предварительную обработку.

Предварительный анализ данных требует сравнения атрибутов каждого файла и значений их хеш-функций на источнике и в хранилище. Для этого используется база дедупликации, хранящая значения контрольных сумм для каждого блока данных. В большинстве систем резервного копирования размер обрабатываемых блоков фиксированный, поэтому база получается довольно объёмной, и её слишком затратно размещать на быстрых накопителях.

В Acronis Backup 12.5 узел хранения Acronis поддерживает дедупликацию бэкапов. Это уменьшает трафик при операциях резервного копирования и размеры самих бэкапов в хранилище за счёт пропуска и последующего удаления дублирующихся данных. Размер блоков динамически изменяется в пределах 256 КБ как для образов дисков или логических разделов, так и для отдельных файлов. Такой подход позволяет в разы снизить требования к объёмам выделяемой на дедупликацию оперативной памяти и повысить скорость обработки.

Если раньше на дедупликацию терабайта уникальных данных дополнительно требовалось около трёх гигабайт оперативной памяти, то сейчас (начиная с версии 11.7) – всего 128 мегабайт. Сама база дедупликации прибавляет около 500 мегабайт на каждый терабайт уникальных данных, поэтому без существенных затрат её можно разместить на быстром диске с прямым подключением или даже на SSD-RAID.

Существует два паттерна при проведении дедупликации- первый описывает механизм на источнике, второй в хранилище. В случае с базовым вариантом развертывания, архив версии 12 имеет встроенный функционал, обеспечивающий дедупликацию в рамках одного задания- таким образом при создании архива, уже задействуются описываемые механизмы и происходит экономия трафика при пересылке ужатых данных. Дедупликация на хранилище происходит во взаимодействии с «узлом хранения», поставляемым в комплекте с Acronis Backup Advanced. Тип архива 11 позволяет производить компрессию данных по указанному методу по всем архивным копиям, расположенным в локации.

Наиболее оправдана дедупликация в режиме полного резервного копирования. Существенную экономию времени и ресурсов она также обеспечивает в схемах инкрементного бэкапа. Она особенно актуальна в том случае, если в локальной сети предприятия часто меняется не столько содержимое большей части файлов, сколько их имена и размещение.

При всех преимуществах дедупликации, иногда от неё целесообразно отказываться. Например, она бесполезна при резервном копировании зашифрованных файлов и мало оправдана для бэкапа баз данных. При использовании качественных средств криптографии малейшее изменение исходных данных полностью меняет их представление в зашифрованном виде. Поэтому в них заведомо не будет дублирующихся блоков. Базы данных тоже изначально обладают низкой степенью избыточности и очень специфическим форматом, делающим все изменения в них уникальными.

Однако на большинстве типичных задач дедупликация позволяет получать значительный выигрыш по объёму и скорости операций с бэкапами. Начиная с версии 11.7 она позволяет обрабатывать в 24 раза больше данных при том же объеме выделяемой памяти, и более чем на треть ускоряет аварийное восстановление данных.

Выводы:

  • дедупликация исключает из обработки повторяющиеся блоки данных, за счёт чего позволяет экономить трафик и место в резервном хранилище;
  • методы дедупликации дают максимальный выигрыш в схемах с полным и инкрементным резервным копированием;
  • при обработке баз данных и зашифрованных файлов дедупликацию можно отключить;
  • процесс дедупликации происходит как на уровне источника данных, так и на уровне хранилища резервных копий;
  • алгоритмы дедупликации могут существенно отличаться даже в разных версиях одного программного продукта;
  • в Acronis Backup Advanced за счёт новых алгоритмов дедупликации достигается многократная экономия ресурсов, а время аварийного восстановления данных сокращается более чем на треть.

 

Заполните форму, чтобы читать дальше и получить данный материал в PDF
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.