Термин · Глоссарий B2B-ПО

Lineage (Data Lineage)

Data Lineage (происхождение данных) – отслеживание пути данных от источника до конечного потребления: через все трансформации, перемещения и агрегации. Обеспечивает прозрачность и аудируемость данных, помогает выявить источники ошибок, оценить влияние изменений и соответствовать регуляторным требованиям.

Буква «L» В категориях: 3 Платформ: 6+

Введение

Data Lineage (происхождение/родословная данных) – практика документирования, отслеживания и визуализации полного пути данных от их источника происхождения до конечного использования (отчёта, дашборда, ML-модели). Lineage фиксирует все операции над данными: где они возникли, через какие системы и трансформации прошли, как и где используются.

По определению Wikipedia, Data Lineage – «процесс отслеживания того, как данные генерируются, трансформируются, передаются и используются в системах с течением времени». Google Cloud определяет это как «карту жизненного цикла данных, показывающую происхождение, движение и трансформацию». Lineage является фундаментальным инструментом Data Governance, Data Quality и регуляторного соответствия.

История и контекст

Концепция происхождения данных существовала в академических базах данных с 1980-х годов под термином «data provenance». В корпоративном контексте Data Lineage стал актуальным с распространением сложных ETL-пайплайнов в Data Warehouse в 1990-х–2000-х годах.

Регуляторные требования ускорили развитие инструментов Lineage: BCBS 239 (банковский регулятор) требует «полной автоматизированной прослеживаемости данных рисков». GDPR требует документирования обработки персональных данных. Сегодня Lineage является обязательным компонентом Data Catalog-платформ (Alation, Collibra, Atlan, Datahub).

Как это работает

Data Lineage документируется на нескольких уровнях детализации:

  • Табличный уровень (Table-level) – отслеживает поток между таблицами/датасетами. Достаточно для понимания общей архитектуры.
  • Колоночный уровень (Column-level) – отслеживает каждое поле: откуда взялось, как вычислено, как трансформировано. Необходимо для compliance-аудитов.
  • Уровень отчётов (Report-level) – связывает бизнес-показатели в дашбордах с источниками данных.

Методы сбора Lineage:

  • Статический анализ кода – парсинг SQL-запросов, ETL-конфигураций, dbt-моделей.
  • Перехват выполнения (Runtime) – запись реальных операций в процессе работы пайплайна.
  • Ручная документация – через Data Catalog интерфейс.

Где применяется

  • Устранение ошибок – быстрый поиск источника некорректных значений в отчёте.
  • Impact Analysis – оценка, какие downstream-системы затронет изменение схемы источника.
  • Регуляторный аудит – демонстрация происхождения показателей регуляторным органам.
  • GDPR/ФЗ-152 compliance – документирование обработки персональных данных.

Преимущества и ограничения

Преимущества: прозрачность и доверие к данным; ускорение устранения дефектов данных; безопасное управление изменениями в пайплайнах; основа для Data Quality и Governance программ.

Ограничения: сложность автоматического построения column-level lineage для всех типов трансформаций; необходимость поддерживать актуальность при изменении пайплайнов; значительные инвестиции в инструментарий.

Связь с другими понятиями

Data Lineage является ключевым компонентом Data Governance, дополняя политики конкретными доказательствами происхождения данных. Data Quality Tools используют lineage для трассировки дефектов. Data Ingestion и Data Integration Tools являются источниками lineage-информации. Data Profiling дополняет lineage статистиками о содержимом данных. Dark Data – данные, lineage которых неизвестен.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Lineage».

Платформы класса «Lineage»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Электронный справочник, содержащий актуальную нормативно-правовую базу в сфере внешнеэкономической деятельност...
Цена по запросу
★ 4.2
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →
Библиотека 3i Speaker ID предназначена для разработки программного обеспечения, в котором необходимо решать за...
Цена по запросу
★ 4.3
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
МА

Маршрутизатор

Данные и аналитика
Яндекс.Маршрутизация (Router API) — программный интерфейс для построения оптимальных маршрутов, расчёта времен...
Цена по запросу
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Lineage».

Где применяется

Отрасли, в которых «Lineage» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Lineage

Что такое Data Lineage?

Документирование и визуализация полного пути данных от источника до конечного использования: все трансформации, зависимости и изменения.

Чем lineage отличается от provenance?

Lineage фокусируется на движении и трансформациях данных между системами (как данные текут). Provenance – на происхождении и аутентичности конкретного значения (откуда взялось).

Зачем нужен column-level lineage?

Для точного compliance-аудита, устранения ошибок в вычисляемых полях и понимания, как конкретная метрика в отчёте формируется из исходных данных.

Как автоматически строить lineage?

Через статический анализ SQL и dbt-моделей, перехват выполнения ETL-пайплайнов, OpenLineage API, Data Catalog-платформы (Alation, Collibra, DataHub).

Связан ли Data Lineage с регуляторными требованиями?

Да. BCBS 239 требует прослеживаемости данных рисков в банках. GDPR и ФЗ-152 требуют документирования обработки персональных данных. Lineage – ключевой инструмент соответствия.