Термин · Глоссарий B2B-ПО

Data Catalog (Data Catalog)

Data Catalog (каталог данных) – централизованный инвентарь всех информационных активов организации: датасетов, таблиц, API, отчётов. Содержит технические и бизнес-метаданные, родословную данных (lineage), информацию о владельцах и политиках доступа. Обеспечивает возможность поиска и самообслуживания аналитиков.

Буква «D» В категориях: 4 Платформ: 4+

Введение

Data Catalog (каталог данных) – централизованная система инвентаризации и документирования всех информационных активов организации: таблиц и представлений в СУБД, файлов в Data Lake, API, BI-отчётов, ML-моделей, потоков данных. Подобно библиотечному каталогу, он хранит метаданные о каждом активе и предоставляет механизм поиска нужных данных.

Помимо технических метаданных (тип данных, схема, строки, статистика), современные каталоги хранят бизнес-метаданные: описание смысла полей на деловом языке, информацию о владельцах данных (data owners), политики классификации и доступа. Это позволяет аналитику найти нужный датасет самостоятельно, не обращаясь к инженеру данных.

История и контекст

До появления специализированных инструментов организации вели метаданные вручную в Excel-таблицах и Wiki-страницах – это было неэффективно и быстро устаревало. Первое поколение корпоративных каталогов (IBM Information Catalog, Informatica Metadata Manager) появилось в 2000-х, но требовало ручного заполнения.

Революцию произвёл проект Apache Atlas (2015, Hortonworks) – открытый каталог с автоматическим сбором метаданных из Hive, HDFS и HBase. Затем появились коммерческие платформы: Alation, Collibra, DataHub (LinkedIn, 2020, открытый исходный код). В России развиваются собственные решения; функциональность каталога данных включают платформы управления данными класса MDM.

Как это работает

Data Catalog функционирует в нескольких режимах:

Автоматическое сканирование – краулер подключается к источникам (СУБД, S3, DWH, BI) и извлекает технические метаданные: имена таблиц, колонок, типы данных, статистику null-значений и кардинальности.
Построение lineage – анализ SQL-запросов, ETL-пайплайнов и трансформаций для отображения родословной: откуда пришли данные, через какие преобразования прошли, какие отчёты от них зависят.
Обогащение бизнес-метаданными – дата-стюарды и владельцы данных добавляют описания, глоссарные термины, тэги классификации (PII, финансовые данные, конфиденциально).
Поиск и самообслуживание – аналитики ищут нужные датасеты через полнотекстовый поиск с фильтрацией по источнику, владельцу, тэгам. Каталог показывает, кто использовал датасет, насколько он актуален и каково его качество.

Интеграция с инструментами Data Quality позволяет отображать в каталоге оценку качества каждого датасета и предупреждать пользователей о проблемах.

Где применяется

Крупные корпорации: управление тысячами датасетов в децентрализованных дата-командах по принципу Data Mesh.
Банки и финансы: документирование данных для регуляторного комплаенса (GDPR, 152-ФЗ, требования ЦБ к управлению данными).
Розничная торговля: инвентаризация данных о клиентах, товарах, транзакциях для предотвращения дублирования датасетов.
Научные организации: документирование датасетов для воспроизводимости исследований.
Государственный сектор: каталогизация открытых данных для порталов типа data.gov.ru.

Преимущества и ограничения

Преимущества: резкое снижение времени поиска нужных данных аналитиками; прозрачность происхождения данных через lineage; поддержка Data Governance и регуляторного комплаенса; выявление дублирующихся и избыточных датасетов.

Ограничения: требует значительных усилий по первоначальному заполнению бизнес-метаданных; ценность каталога напрямую зависит от дисциплины команды по его поддержанию; интеграция со всеми источниками данных требует технических ресурсов.

Связь с другими понятиями

Data Governance – управление данными, в рамках которого каталог является ключевым инструментом. Data Quality – метрики качества отображаются в каталоге для каждого датасета. Data Lineage – родословная данных, визуализируемая в каталоге. MDM – мастер-данные документируются в каталоге с особым приоритетом. Семантический слой может использовать каталог как источник глоссарных определений.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Data Catalog».

Платформы класса «Data Catalog»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Unidata MDM EE

Unidata MDM EE (Юнидата Управление Мастер Данными, Корпоративная Редакция) - платформа управления мастер-данны...

Цена по запросу

★ 4.7

Подробнее →

3i Speaker ID SDK

Библиотека 3i Speaker ID предназначена для разработки программного обеспечения, в котором необходимо решать за...

Цена по запросу

★ 4.3

Подробнее →

OWOX BI

OWOX BI — облачная платформа для маркетинговой и сквозной аналитики, автоматически собирающая данные из реклам...

Цена по запросу

★ 4.3

Подробнее →

Геоаналитика

«Геоаналитика» ‒ российская геоинформационная платформа для разработки корпоративных ГИС и информационно-анали...

Цена по запросу

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Data Catalog».

Управление данными Качество данных (DQM) Master Data Management (MDM) Каталоги данных

Где применяется

Отрасли, в которых «Data Catalog» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Финансы и финтех

Государственное управление и госуслуги

Банки и страховые компании

Торговля (оптовая и розничная)

Частые вопросы про Data Catalog

Чем Data Catalog отличается от Data Dictionary?

Data Dictionary – технический список таблиц и полей конкретной СУБД. Data Catalog – корпоративная система, охватывающая все источники данных с бизнес-контекстом, поиском, lineage и управлением доступом.

Что такое data lineage и зачем он нужен в каталоге?

Data lineage (родословная данных) показывает путь данных: из каких источников они пришли, через какие трансформации прошли, в каких отчётах используются. Критично для отладки ошибок и регуляторного аудита.

Как каталог данных связан с Data Governance?

Каталог – операционный инструмент Data Governance: он документирует владельцев данных, политики доступа, классификацию (PII, конфиденциально) и обеспечивает прозрачность для аудита регуляторов.

Обязательно ли заполнять каталог вручную?

Технические метаданные (схемы, типы, статистика) извлекаются автоматически через сканеры. Бизнес-описания, тэги и глоссарные термины требуют участия людей – дата-стюардов и владельцев данных.

Какие открытые решения Data Catalog существуют?

DataHub (LinkedIn, открытый), Apache Atlas (Hadoop-экосистема), OpenMetadata. Среди коммерческих: Collibra, Alation, Informatica CDGC. В российских условиях ряд функций выполняет Unidata MDM EE.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Data Catalog»

Unidata MDM EE

3i Speaker ID SDK

OWOX BI

Геоаналитика

Категории каталога

Где применяется

Частые вопросы про Data Catalog

Чем Data Catalog отличается от Data Dictionary?

Что такое data lineage и зачем он нужен в каталоге?

Как каталог данных связан с Data Governance?

Обязательно ли заполнять каталог вручную?

Какие открытые решения Data Catalog существуют?

Контур Меркурий

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли