Термин · Глоссарий B2B-ПО

Data Catalog (Data Catalog)

Data Catalog (каталог данных) – централизованный инвентарь всех информационных активов организации: датасетов, таблиц, API, отчётов. Содержит технические и бизнес-метаданные, родословную данных (lineage), информацию о владельцах и политиках доступа. Обеспечивает возможность поиска и самообслуживания аналитиков.

Буква «D» В категориях: 4 Платформ: 4+

Введение

Data Catalog (каталог данных) – централизованная система инвентаризации и документирования всех информационных активов организации: таблиц и представлений в СУБД, файлов в Data Lake, API, BI-отчётов, ML-моделей, потоков данных. Подобно библиотечному каталогу, он хранит метаданные о каждом активе и предоставляет механизм поиска нужных данных.

Помимо технических метаданных (тип данных, схема, строки, статистика), современные каталоги хранят бизнес-метаданные: описание смысла полей на деловом языке, информацию о владельцах данных (data owners), политики классификации и доступа. Это позволяет аналитику найти нужный датасет самостоятельно, не обращаясь к инженеру данных.

История и контекст

До появления специализированных инструментов организации вели метаданные вручную в Excel-таблицах и Wiki-страницах – это было неэффективно и быстро устаревало. Первое поколение корпоративных каталогов (IBM Information Catalog, Informatica Metadata Manager) появилось в 2000-х, но требовало ручного заполнения.

Революцию произвёл проект Apache Atlas (2015, Hortonworks) – открытый каталог с автоматическим сбором метаданных из Hive, HDFS и HBase. Затем появились коммерческие платформы: Alation, Collibra, DataHub (LinkedIn, 2020, открытый исходный код). В России развиваются собственные решения; функциональность каталога данных включают платформы управления данными класса MDM.

Как это работает

Data Catalog функционирует в нескольких режимах:

  1. Автоматическое сканирование – краулер подключается к источникам (СУБД, S3, DWH, BI) и извлекает технические метаданные: имена таблиц, колонок, типы данных, статистику null-значений и кардинальности.
  2. Построение lineage – анализ SQL-запросов, ETL-пайплайнов и трансформаций для отображения родословной: откуда пришли данные, через какие преобразования прошли, какие отчёты от них зависят.
  3. Обогащение бизнес-метаданными – дата-стюарды и владельцы данных добавляют описания, глоссарные термины, тэги классификации (PII, финансовые данные, конфиденциально).
  4. Поиск и самообслуживание – аналитики ищут нужные датасеты через полнотекстовый поиск с фильтрацией по источнику, владельцу, тэгам. Каталог показывает, кто использовал датасет, насколько он актуален и каково его качество.

Интеграция с инструментами Data Quality позволяет отображать в каталоге оценку качества каждого датасета и предупреждать пользователей о проблемах.

Где применяется

  • Крупные корпорации: управление тысячами датасетов в децентрализованных дата-командах по принципу Data Mesh.
  • Банки и финансы: документирование данных для регуляторного комплаенса (GDPR, 152-ФЗ, требования ЦБ к управлению данными).
  • Розничная торговля: инвентаризация данных о клиентах, товарах, транзакциях для предотвращения дублирования датасетов.
  • Научные организации: документирование датасетов для воспроизводимости исследований.
  • Государственный сектор: каталогизация открытых данных для порталов типа data.gov.ru.

Преимущества и ограничения

Преимущества: резкое снижение времени поиска нужных данных аналитиками; прозрачность происхождения данных через lineage; поддержка Data Governance и регуляторного комплаенса; выявление дублирующихся и избыточных датасетов.

Ограничения: требует значительных усилий по первоначальному заполнению бизнес-метаданных; ценность каталога напрямую зависит от дисциплины команды по его поддержанию; интеграция со всеми источниками данных требует технических ресурсов.

Связь с другими понятиями

Data Governance – управление данными, в рамках которого каталог является ключевым инструментом. Data Quality – метрики качества отображаются в каталоге для каждого датасета. Data Lineage – родословная данных, визуализируемая в каталоге. MDM – мастер-данные документируются в каталоге с особым приоритетом. Семантический слой может использовать каталог как источник глоссарных определений.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Data Catalog».

Платформы класса «Data Catalog»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Unidata MDM EE (Юнидата Управление Мастер Данными, Корпоративная Редакция) - платформа управления мастер-данны...
Цена по запросу
★ 4.7
Подробнее →
Библиотека 3i Speaker ID предназначена для разработки программного обеспечения, в котором необходимо решать за...
Цена по запросу
★ 4.3
Подробнее →
OWOX BI — облачная платформа для маркетинговой и сквозной аналитики, автоматически собирающая данные из реклам...
Цена по запросу
★ 4.3
Подробнее →
«Геоаналитика» ‒ российская геоинформационная платформа для разработки корпоративных ГИС и информационно-анали...
Цена по запросу
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Data Catalog».

Где применяется

Отрасли, в которых «Data Catalog» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Data Catalog

Чем Data Catalog отличается от Data Dictionary?

Data Dictionary – технический список таблиц и полей конкретной СУБД. Data Catalog – корпоративная система, охватывающая все источники данных с бизнес-контекстом, поиском, lineage и управлением доступом.

Что такое data lineage и зачем он нужен в каталоге?

Data lineage (родословная данных) показывает путь данных: из каких источников они пришли, через какие трансформации прошли, в каких отчётах используются. Критично для отладки ошибок и регуляторного аудита.

Как каталог данных связан с Data Governance?

Каталог – операционный инструмент Data Governance: он документирует владельцев данных, политики доступа, классификацию (PII, конфиденциально) и обеспечивает прозрачность для аудита регуляторов.

Обязательно ли заполнять каталог вручную?

Технические метаданные (схемы, типы, статистика) извлекаются автоматически через сканеры. Бизнес-описания, тэги и глоссарные термины требуют участия людей – дата-стюардов и владельцев данных.

Какие открытые решения Data Catalog существуют?

DataHub (LinkedIn, открытый), Apache Atlas (Hadoop-экосистема), OpenMetadata. Среди коммерческих: Collibra, Alation, Informatica CDGC. В российских условиях ряд функций выполняет Unidata MDM EE.