Введение
Data Catalog (каталог данных) – централизованная система инвентаризации и документирования всех информационных активов организации: таблиц и представлений в СУБД, файлов в Data Lake, API, BI-отчётов, ML-моделей, потоков данных. Подобно библиотечному каталогу, он хранит метаданные о каждом активе и предоставляет механизм поиска нужных данных.
Помимо технических метаданных (тип данных, схема, строки, статистика), современные каталоги хранят бизнес-метаданные: описание смысла полей на деловом языке, информацию о владельцах данных (data owners), политики классификации и доступа. Это позволяет аналитику найти нужный датасет самостоятельно, не обращаясь к инженеру данных.
История и контекст
До появления специализированных инструментов организации вели метаданные вручную в Excel-таблицах и Wiki-страницах – это было неэффективно и быстро устаревало. Первое поколение корпоративных каталогов (IBM Information Catalog, Informatica Metadata Manager) появилось в 2000-х, но требовало ручного заполнения.
Революцию произвёл проект Apache Atlas (2015, Hortonworks) – открытый каталог с автоматическим сбором метаданных из Hive, HDFS и HBase. Затем появились коммерческие платформы: Alation, Collibra, DataHub (LinkedIn, 2020, открытый исходный код). В России развиваются собственные решения; функциональность каталога данных включают платформы управления данными класса MDM.
Как это работает
Data Catalog функционирует в нескольких режимах:
- Автоматическое сканирование – краулер подключается к источникам (СУБД, S3, DWH, BI) и извлекает технические метаданные: имена таблиц, колонок, типы данных, статистику null-значений и кардинальности.
- Построение lineage – анализ SQL-запросов, ETL-пайплайнов и трансформаций для отображения родословной: откуда пришли данные, через какие преобразования прошли, какие отчёты от них зависят.
- Обогащение бизнес-метаданными – дата-стюарды и владельцы данных добавляют описания, глоссарные термины, тэги классификации (PII, финансовые данные, конфиденциально).
- Поиск и самообслуживание – аналитики ищут нужные датасеты через полнотекстовый поиск с фильтрацией по источнику, владельцу, тэгам. Каталог показывает, кто использовал датасет, насколько он актуален и каково его качество.
Интеграция с инструментами Data Quality позволяет отображать в каталоге оценку качества каждого датасета и предупреждать пользователей о проблемах.
Где применяется
- Крупные корпорации: управление тысячами датасетов в децентрализованных дата-командах по принципу Data Mesh.
- Банки и финансы: документирование данных для регуляторного комплаенса (GDPR, 152-ФЗ, требования ЦБ к управлению данными).
- Розничная торговля: инвентаризация данных о клиентах, товарах, транзакциях для предотвращения дублирования датасетов.
- Научные организации: документирование датасетов для воспроизводимости исследований.
- Государственный сектор: каталогизация открытых данных для порталов типа data.gov.ru.
Преимущества и ограничения
Преимущества: резкое снижение времени поиска нужных данных аналитиками; прозрачность происхождения данных через lineage; поддержка Data Governance и регуляторного комплаенса; выявление дублирующихся и избыточных датасетов.
Ограничения: требует значительных усилий по первоначальному заполнению бизнес-метаданных; ценность каталога напрямую зависит от дисциплины команды по его поддержанию; интеграция со всеми источниками данных требует технических ресурсов.
Связь с другими понятиями
Data Governance – управление данными, в рамках которого каталог является ключевым инструментом. Data Quality – метрики качества отображаются в каталоге для каждого датасета. Data Lineage – родословная данных, визуализируемая в каталоге. MDM – мастер-данные документируются в каталоге с особым приоритетом. Семантический слой может использовать каталог как источник глоссарных определений.