Введение
Дедупликация данных (Data Deduplication) – технология оптимизации хранения, при которой система идентифицирует и устраняет избыточные копии идентичных блоков или файлов. Вместо хранения множества копий одинаковых данных система хранит единственный экземпляр (canonical copy) и заменяет все дублирующие блоки ссылками на него.
Степень экономии зависит от типа данных: для резервных копий виртуальных машин коэффициент дедупликации может достигать 20:1 (экономия 95%), для первичных данных – 2:1–5:1. Технология широко применяется в системах резервного копирования, NAS-устройствах, VDI-инфраструктуре и облачных хранилищах.
История и контекст
Коммерческие системы дедупликации появились в середине 2000-х годов. Компания Data Domain (приобретена EMC в 2009 году) была пионером в применении дедупликации для систем резервного копирования, предложив устройства с встроенной дедупликацией, радикально снижавшие потребность в хранилище для бэкапов.
Сегодня дедупликация встроена в большинство корпоративных систем хранения: NetApp (ONTAP), Dell EMC, HPE StoreOnce, а также в гипервизоры (VMware vSAN) и облачные сервисы (Azure Blob Storage, AWS S3).
Как это работает
Существует два основных метода дедупликации:
- Дедупликация на уровне блоков (Block-level) – данные разбиваются на блоки фиксированного или переменного размера. Каждый блок идентифицируется хэш-значением (SHA-1, SHA-256). Дублирующие блоки заменяются ссылками.
- Дедупликация на уровне файлов (File-level) – сравниваются целые файлы. Менее эффективна для резервных копий, но проще в реализации.
По времени выполнения различают:
- Инлайн-дедупликация (Inline) – данные дедуплицируются до записи. Не занимает дополнительное место, но снижает производительность записи.
- Постпроцессная дедупликация (Post-process) – данные сначала записываются, затем обрабатываются. Не влияет на производительность, но требует временного дополнительного пространства.
Где применяется
- Системы резервного копирования – наибольший эффект (коэффициент 10:1–50:1).
- NAS-устройства для хранения документов и медиаконтента.
- VDI (Virtual Desktop Infrastructure) – базовые образы ВМ идентичны.
- Облачные хранилища – снижение затрат на хранение у провайдера.
Преимущества и ограничения
Преимущества: значительное снижение объёма хранилища и затрат; уменьшение трафика при репликации (dedup + replication); снижение TCO систем хранения.
Ограничения: дополнительная нагрузка на CPU при инлайн-обработке; менее эффективна для зашифрованных и сжатых данных (хэши уникальны); сложность восстановления при повреждении метаданных дедупликации.
Связь с другими понятиями
Дедупликация часто применяется совместно с компрессией данных в системах Data Center хранения. Data Wiping может потребовать специальных процедур для корректного удаления дедуплицированных данных. Data Governance определяет политики хранения, где дедупликация помогает сократить затраты. Backup системы являются основным полигоном для применения дедупликации. DASD-устройства являются физическими носителями, где реализуется дедупликация.