Термин · Глоссарий B2B-ПО

Lineage (Data Lineage)

Data Lineage (происхождение данных) – отслеживание пути данных от источника до конечного потребления: через все трансформации, перемещения и агрегации. Обеспечивает прозрачность и аудируемость данных, помогает выявить источники ошибок, оценить влияние изменений и соответствовать регуляторным требованиям.

Буква «L» В категориях: 3 Платформ: 6+

Введение

Data Lineage (происхождение/родословная данных) – практика документирования, отслеживания и визуализации полного пути данных от их источника происхождения до конечного использования (отчёта, дашборда, ML-модели). Lineage фиксирует все операции над данными: где они возникли, через какие системы и трансформации прошли, как и где используются.

По определению Wikipedia, Data Lineage – «процесс отслеживания того, как данные генерируются, трансформируются, передаются и используются в системах с течением времени». Google Cloud определяет это как «карту жизненного цикла данных, показывающую происхождение, движение и трансформацию». Lineage является фундаментальным инструментом Data Governance, Data Quality и регуляторного соответствия.

История и контекст

Концепция происхождения данных существовала в академических базах данных с 1980-х годов под термином «data provenance». В корпоративном контексте Data Lineage стал актуальным с распространением сложных ETL-пайплайнов в Data Warehouse в 1990-х–2000-х годах.

Регуляторные требования ускорили развитие инструментов Lineage: BCBS 239 (банковский регулятор) требует «полной автоматизированной прослеживаемости данных рисков». GDPR требует документирования обработки персональных данных. Сегодня Lineage является обязательным компонентом Data Catalog-платформ (Alation, Collibra, Atlan, Datahub).

Как это работает

Data Lineage документируется на нескольких уровнях детализации:

Табличный уровень (Table-level) – отслеживает поток между таблицами/датасетами. Достаточно для понимания общей архитектуры.
Колоночный уровень (Column-level) – отслеживает каждое поле: откуда взялось, как вычислено, как трансформировано. Необходимо для compliance-аудитов.
Уровень отчётов (Report-level) – связывает бизнес-показатели в дашбордах с источниками данных.

Методы сбора Lineage:

Статический анализ кода – парсинг SQL-запросов, ETL-конфигураций, dbt-моделей.
Перехват выполнения (Runtime) – запись реальных операций в процессе работы пайплайна.
Ручная документация – через Data Catalog интерфейс.

Где применяется

Устранение ошибок – быстрый поиск источника некорректных значений в отчёте.
Impact Analysis – оценка, какие downstream-системы затронет изменение схемы источника.
Регуляторный аудит – демонстрация происхождения показателей регуляторным органам.
GDPR/ФЗ-152 compliance – документирование обработки персональных данных.

Преимущества и ограничения

Преимущества: прозрачность и доверие к данным; ускорение устранения дефектов данных; безопасное управление изменениями в пайплайнах; основа для Data Quality и Governance программ.

Ограничения: сложность автоматического построения column-level lineage для всех типов трансформаций; необходимость поддерживать актуальность при изменении пайплайнов; значительные инвестиции в инструментарий.

Связь с другими понятиями

Data Lineage является ключевым компонентом Data Governance, дополняя политики конкретными доказательствами происхождения данных. Data Quality Tools используют lineage для трассировки дефектов. Data Ingestion и Data Integration Tools являются источниками lineage-информации. Data Profiling дополняет lineage статистиками о содержимом данных. Dark Data – данные, lineage которых неизвестен.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Lineage».

Платформы класса «Lineage»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ABCP

Платформа ABCP

Цена по запросу

Подробнее →

ВЭД-Инфо

Электронный справочник, содержащий актуальную нормативно-правовую базу в сфере внешнеэкономической деятельност...

Цена по запросу

★ 4.2

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

3i Speaker ID SDK

Библиотека 3i Speaker ID предназначена для разработки программного обеспечения, в котором необходимо решать за...

Цена по запросу

★ 4.3

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

МА

Маршрутизатор

Данные и аналитика

Яндекс.Маршрутизация (Router API) — программный интерфейс для построения оптимальных маршрутов, расчёта времен...

Цена по запросу

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Lineage».

Управление данными Качество данных (DQM) Каталоги данных

Где применяется

Отрасли, в которых «Lineage» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Здравоохранение и медицина

Финансы и финтех

Государственное управление и госуслуги

Банки и страховые компании

Частые вопросы про Lineage

Что такое Data Lineage?

Документирование и визуализация полного пути данных от источника до конечного использования: все трансформации, зависимости и изменения.

Чем lineage отличается от provenance?

Lineage фокусируется на движении и трансформациях данных между системами (как данные текут). Provenance – на происхождении и аутентичности конкретного значения (откуда взялось).

Зачем нужен column-level lineage?

Для точного compliance-аудита, устранения ошибок в вычисляемых полях и понимания, как конкретная метрика в отчёте формируется из исходных данных.

Как автоматически строить lineage?

Через статический анализ SQL и dbt-моделей, перехват выполнения ETL-пайплайнов, OpenLineage API, Data Catalog-платформы (Alation, Collibra, DataHub).

Связан ли Data Lineage с регуляторными требованиями?

Да. BCBS 239 требует прослеживаемости данных рисков в банках. GDPR и ФЗ-152 требуют документирования обработки персональных данных. Lineage – ключевой инструмент соответствия.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Lineage»

ABCP

ВЭД-Инфо

Tarantool Data Grid

3i Speaker ID SDK

БАРС.Мониторинг-ЖКХ

Маршрутизатор

Категории каталога

Где применяется

Частые вопросы про Lineage

Что такое Data Lineage?

Чем lineage отличается от provenance?

Зачем нужен column-level lineage?

Как автоматически строить lineage?

Связан ли Data Lineage с регуляторными требованиями?

Контур Меркурий

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли