Термин · Глоссарий B2B-ПО

тёмные данные (Dark Data)

Тёмные данные (Dark Data) – информация, которую организация собирает в ходе бизнес-операций, но не анализирует и не использует для принятия решений. Хранится на серверах, занимая ресурсы, но не создавая ценности. Включает логи, резервные копии, устаревшие файлы, данные датчиков и неструктурированные записи.

Буква «Т» В категориях: 3 Платформ: 6+

Введение

Тёмные данные (Dark Data) – это массивы информации, которые организация генерирует, собирает и хранит в ходе своей деятельности, однако не использует ни для аналитики, ни для принятия управленческих решений. Термин введён компанией Gartner и охватывает все данные, которые «существуют в темноте» – то есть остаются вне поля зрения аналитиков и систем бизнес-аналитики.

По различным оценкам, от 60% до 85% корпоративных данных являются тёмными. Это означает, что большая часть информации в корпоративных хранилищах занимает ресурсы (стоимость хранения, энергопотребление), но не создаёт ценности. При этом часть тёмных данных может содержать ценные инсайты или представлять юридический и регуляторный риск.

История и контекст

Концепция тёмных данных сформировалась с экспоненциальным ростом объёмов хранимой информации в 2000-х годах. Развитие IoT-устройств, систем видеонаблюдения, корпоративных почтовых серверов и ERP-систем привело к накоплению петабайт данных, которые организации хранили «на всякий случай».

Deloitte и IBM выделяют несколько причин появления тёмных данных: отсутствие инструментов для обработки неструктурированных данных, неясность о ценности данных, организационные барьеры между ИТ и бизнесом, а также чрезмерное накопление «на всякий случай».

Как это работает

Типичные категории тёмных данных в организации:

  • Системные и сетевые логи – журналы событий ОС, сетевого оборудования, приложений.
  • Резервные копии – архивы данных, хранящиеся годами без проверки содержимого.
  • Электронная почта и мессенджеры – исторические архивы переписки.
  • Данные датчиков и IoT – телеметрия, собираемая устройствами, но не обрабатываемая.
  • Устаревшие CRM и ERP-записи – данные о бывших клиентах и завершённых проектах.
  • Медиафайлы и документы – фото, видео, PDF, которые не индексированы и не классифицированы.

Активация тёмных данных требует их обнаружения и классификации (через data catalog, NLP, ML), оценки ценности и риска, а затем либо использования в аналитике, либо безопасного удаления.

Где применяется

  • Промышленность – телеметрия оборудования, потенциально полезная для предиктивного обслуживания.
  • Здравоохранение – неструктурированные медицинские записи, данные визуализации.
  • Финансы – исторические транзакционные данные для обнаружения мошенничества.
  • Ритейл – логи посещаемости, данные о поведении на сайте.

Преимущества активации и ограничения

Преимущества активации: обнаружение скрытых бизнес-инсайтов; снижение затрат на хранение после очистки; выявление угроз безопасности (неизвестные уязвимости в логах); соответствие требованиям регуляторов по хранению данных.

Ограничения: высокая стоимость обработки неструктурированных данных; риск нарушения GDPR/152-ФЗ при хранении персональных данных без цели; сложность приоритизации – что обрабатывать первым.

Связь с другими понятиями

Тёмные данные являются объектом практик Data Governance – управления данными, которое определяет политики хранения, классификации и удаления. Data Profiling и Data Quality Tools используются для оценки содержимого и качества тёмных данных. Data Lake часто накапливает тёмные данные в зоне «сырых данных» (raw zone) без последующей обработки. Data Lineage позволяет отслеживать происхождение данных и выявлять неиспользуемые источники.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «тёмные данные».

Платформы класса «тёмные данные»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Электронный справочник, содержащий актуальную нормативно-правовую базу в сфере внешнеэкономической деятельност...
Цена по запросу
★ 4.2
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →
Библиотека 3i Speaker ID предназначена для разработки программного обеспечения, в котором необходимо решать за...
Цена по запросу
★ 4.3
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
МА

Маршрутизатор

Данные и аналитика
Яндекс.Маршрутизация (Router API) — программный интерфейс для построения оптимальных маршрутов, расчёта времен...
Цена по запросу
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «тёмные данные».

Где применяется

Отрасли, в которых «тёмные данные» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про тёмные данные

Что такое тёмные данные?

Информация, которую организация собирает и хранит, но не анализирует. Занимает ресурсы хранилища, не создавая ценности. По оценкам, 60–85% корпоративных данных являются тёмными.

Какие данные считаются тёмными?

Системные логи, резервные копии, архивы email, данные IoT-датчиков, устаревшие CRM-записи, неструктурированные документы и медиафайлы.

Чем опасны тёмные данные?

Они несут скрытые риски безопасности (персональные данные без защиты), регуляторные риски (152-ФЗ, GDPR) и финансовые затраты на хранение.

Как активировать тёмные данные?

Через обнаружение и классификацию (data catalog, ML/NLP), оценку ценности и рисков, затем использование в аналитике или безопасное удаление.

Как тёмные данные связаны с Data Governance?

Data Governance определяет политики хранения, классификации и удаления данных – именно это позволяет организовать работу с тёмными данными системно.

Что значит «активировать» тёмные данные?

Превратить неиспользуемые данные в ценный актив: применить NLP/ML для извлечения инсайтов, очистить устаревшие записи или направить телеметрию в аналитический пайплайн.