Термин · Глоссарий B2B-ПО

Дедупликация данных (Data Deduplication)

Дедупликация данных (Data Deduplication) – технология устранения избыточных копий идентичных данных в системах хранения. Вместо хранения одинаковых блоков или файлов сохраняется единственный экземпляр с указателями от всех дублирующих копий. Позволяет сократить объём хранилища на 30–95% в зависимости от типа данных.

Буква «Д» В категориях: 3 Платформ: 6+

Введение

Дедупликация данных (Data Deduplication) – технология оптимизации хранения, при которой система идентифицирует и устраняет избыточные копии идентичных блоков или файлов. Вместо хранения множества копий одинаковых данных система хранит единственный экземпляр (canonical copy) и заменяет все дублирующие блоки ссылками на него.

Степень экономии зависит от типа данных: для резервных копий виртуальных машин коэффициент дедупликации может достигать 20:1 (экономия 95%), для первичных данных – 2:1–5:1. Технология широко применяется в системах резервного копирования, NAS-устройствах, VDI-инфраструктуре и облачных хранилищах.

История и контекст

Коммерческие системы дедупликации появились в середине 2000-х годов. Компания Data Domain (приобретена EMC в 2009 году) была пионером в применении дедупликации для систем резервного копирования, предложив устройства с встроенной дедупликацией, радикально снижавшие потребность в хранилище для бэкапов.

Сегодня дедупликация встроена в большинство корпоративных систем хранения: NetApp (ONTAP), Dell EMC, HPE StoreOnce, а также в гипервизоры (VMware vSAN) и облачные сервисы (Azure Blob Storage, AWS S3).

Как это работает

Существует два основных метода дедупликации:

  • Дедупликация на уровне блоков (Block-level) – данные разбиваются на блоки фиксированного или переменного размера. Каждый блок идентифицируется хэш-значением (SHA-1, SHA-256). Дублирующие блоки заменяются ссылками.
  • Дедупликация на уровне файлов (File-level) – сравниваются целые файлы. Менее эффективна для резервных копий, но проще в реализации.

По времени выполнения различают:

  • Инлайн-дедупликация (Inline) – данные дедуплицируются до записи. Не занимает дополнительное место, но снижает производительность записи.
  • Постпроцессная дедупликация (Post-process) – данные сначала записываются, затем обрабатываются. Не влияет на производительность, но требует временного дополнительного пространства.

Где применяется

  • Системы резервного копирования – наибольший эффект (коэффициент 10:1–50:1).
  • NAS-устройства для хранения документов и медиаконтента.
  • VDI (Virtual Desktop Infrastructure) – базовые образы ВМ идентичны.
  • Облачные хранилища – снижение затрат на хранение у провайдера.

Преимущества и ограничения

Преимущества: значительное снижение объёма хранилища и затрат; уменьшение трафика при репликации (dedup + replication); снижение TCO систем хранения.

Ограничения: дополнительная нагрузка на CPU при инлайн-обработке; менее эффективна для зашифрованных и сжатых данных (хэши уникальны); сложность восстановления при повреждении метаданных дедупликации.

Связь с другими понятиями

Дедупликация часто применяется совместно с компрессией данных в системах Data Center хранения. Data Wiping может потребовать специальных процедур для корректного удаления дедуплицированных данных. Data Governance определяет политики хранения, где дедупликация помогает сократить затраты. Backup системы являются основным полигоном для применения дедупликации. DASD-устройства являются физическими носителями, где реализуется дедупликация.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Дедупликация данных».

Платформы класса «Дедупликация данных»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ClickHouse

ClickHouse

ИТ-инфраструктура
ClickHouse — колоночная аналитическая СУБД (OLAP), созданная Яндексом и открытая в 2016 году. Обеспечивает обр...
Цена по запросу
★ 4.8
Подробнее →
LA

LAVR

BI-платформы
LAVR — платформа для анализа данных и их взаимосвязей на основе графовой модели. Позволяет загружать данные в...
Цена по запросу
★ 4.3
Подробнее →
Phoenix.Data — B2B-платформа для анализа потоков посетителей, оценки покупательского спроса, оптимизации транс...
Цена по запросу
★ 4.0
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Дедупликация данных».

Где применяется

Отрасли, в которых «Дедупликация данных» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Дедупликация данных

Что такое дедупликация данных?

Технология устранения избыточных копий идентичных блоков данных. Хранится один экземпляр, дубли заменяются ссылками. Экономия хранилища – до 95%.

Для каких данных дедупликация наиболее эффективна?

Для резервных копий виртуальных машин (10:1–50:1), VDI-образов, документов в NAS. Менее эффективна для уникальных данных, видео и зашифрованных файлов.

Чем inline-дедупликация отличается от постпроцессной?

Inline – данные дедуплицируются до записи (не нужно дополнительное место, но замедляет запись). Post-process – сначала запись, потом обработка (требует временного пространства).

Можно ли дедуплицировать зашифрованные данные?

Нет, шифрование делает одинаковые блоки уникальными (разные хэши). Дедупликацию нужно применять до шифрования, иначе эффект будет минимальным.

Какие системы хранения поддерживают дедупликацию?

NetApp ONTAP, Dell EMC PowerProtect, HPE StoreOnce, Veeam, VMware vSAN, Azure Blob Storage, Tarantool Data Grid (id: 6642).