Термин · Глоссарий B2B-ПО

Слой данных

Слой данных – логически обособленный уровень в многоуровневой архитектуре хранилища данных (DWH). Каждый слой выполняет строго определённую роль: источниковый хранит сырые копии, стейджинг – промежуточный буфер, детальный – нормализованные данные с историей, агрегатный – предвычисленные итоги, витрина – предметно-ориентированный срез для BI.

Буква «С» В категориях: 3 Платформ: 6+

Введение

Слой данных (data layer) – логически обособленный уровень в архитектуре корпоративного хранилища данных (DWH), выполняющий строго определённую роль в пайплайне обработки информации. Многоуровневая организация позволяет чётко разграничить ответственность между этапами: загрузка сырых данных, их очистка и обогащение, хранение истории изменений, агрегация и конечная выдача для аналитики.

Концепция слоёв появилась как решение проблем ранних монолитных хранилищ, где данные загружались напрямую в конечные таблицы без промежуточных зон. Это делало невозможным восстановление истории при сбоях и приводило к хаосу при изменении схем источников. Введение изолированных слоёв сделало пайплайны воспроизводимыми и управляемыми.

История и контекст

Билл Инмон в книге «Building the Data Warehouse» (1992) формализовал понятие Subject-Oriented, Integrated, Non-volatile, Time-variant хранилища и впервые описал необходимость промежуточных зон обработки. Ральф Кимбалл развил идею staging area и ввёл звёздные схемы для конечных витрин.

К 2010-м годам с появлением облачных DWH (Snowflake, Redshift) и концепции Data Lake слоевая архитектура была адаптирована для хранения как структурированных, так и неструктурированных данных. В 2021 году Databricks популяризировала медальонную архитектуру (Bronze → Silver → Gold) как универсальный паттерн для платформ типа Lakehouse. В России аналогичные архитектуры используются на базе ClickHouse, Arenadata DB (Greenplum), Tarantool Data Grid.

Как это работает

Классическая многоуровневая архитектура корпоративного DWH включает следующие слои:

  1. Источниковый слой (Source / ODS) – точная копия данных из операционных систем: ERP, CRM, учётные системы. Данные хранятся в исходном виде без трансформаций. Этот слой позволяет перезапустить пайплайн с нуля при сбоях.
  2. Стейджинг (Staging Area) – временная буферная зона для промежуточного хранения данных в процессе ETL. Обычно не сохраняет историю – данные перезаписываются при каждой загрузке. Изолирует источник от последующих трансформаций.
  3. Детальный слой (Core / DDS) – очищенные, нормализованные или нормально денормализованные данные с историей изменений (SCD – Slowly Changing Dimensions). Является «единой версией правды» для всей организации.
  4. Агрегатный слой – предвычисленные итоги по часто запрашиваемым срезам: суммы продаж по месяцам, средние значения KPI. Снижает нагрузку на детальный слой и ускоряет BI-запросы.
  5. Слой витрин данных (Data Marts) – денормализованные предметно-ориентированные подмножества для конкретных подразделений: финансовая витрина, витрина продаж, HR-витрина.

В медальонной архитектуре аналогичные уровни называются Bronze (сырые данные «as-is»), Silver (очищенные и обогащённые) и Gold (агрегаты и витрины для BI).

Где применяется

  • Корпоративные DWH: банки, ритейл, телеком строят многослойные хранилища для консолидации данных из десятков источников.
  • Data Lake / Lakehouse: файловые хранилища HDFS, S3, Azure ADLS организуются по слоям для управления жизненным циклом данных.
  • ELT-архитектуры: инструмент dbt (data build tool) описывает трансформации между слоями в виде SQL-моделей с версионностью и тестами качества.
  • Регуляторная отчётность: банки поддерживают отдельные слои для МСФО и РСБУ с разными логиками агрегации и разными схемами безопасности доступа.

Преимущества и ограничения

Преимущества: чёткое разграничение ответственности между командами; воспроизводимость пайплайна – возможность перезапуска с любого слоя при сбое; изоляция изменений схемы источника от потребителей данных; упрощение аудита и обеспечения качества данных на каждом уровне.

Ограничения: увеличение объёма хранимых данных за счёт дублирования между слоями; рост сложности архитектуры и требований к документации. При отсутствии управления данными (Data Governance) слои деградируют в «болото данных».

Связь с другими понятиями

Витрина данных – верхний слой DWH, ориентированный на конечных пользователей. ETL / ELT – процессы перемещения и трансформации данных между слоями. Data Lineage фиксирует родословную преобразований при переходе между уровнями. Семантический слой надстраивается над витринами и добавляет бизнес-логику для BI. MDM обеспечивает согласованность справочных данных между слоями.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Слой данных».

Платформы класса «Слой данных»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ClickHouse

ClickHouse

ИТ-инфраструктура
ClickHouse — колоночная аналитическая СУБД (OLAP), созданная Яндексом и открытая в 2016 году. Обеспечивает обр...
Цена по запросу
★ 4.8
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →
LA

LAVR

BI-платформы
LAVR — платформа для анализа данных и их взаимосвязей на основе графовой модели. Позволяет загружать данные в...
Цена по запросу
★ 4.3
Подробнее →
RD

RT DataBase

Хранилища данных (DWH)
RT DataBase — российская система управления базами данных, разработанная ООО «РТ-ДИАСОФТ» (входит в экосистему...
Цена по запросу
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Слой данных».

Где применяется

Отрасли, в которых «Слой данных» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Слой данных

Сколько слоёв должно быть в DWH?

Классическая архитектура предполагает 3–5 слоёв: источниковый, стейджинг, детальный, агрегатный, витрины. Небольшие компании обходятся 2–3 уровнями; крупные банки могут иметь 6–7 слоёв с дополнительными зонами карантина и MDM.

Чем слой данных отличается от витрины данных?

Витрина – конкретный верхний слой, ориентированный на аналитику подразделения. Слой данных – общее понятие для любого логического уровня архитектуры, включая стейджинг и детальный слой.

Что такое медальонная архитектура и чем она отличается от классических слоёв?

Медальонная архитектура (Bronze/Silver/Gold) – паттерн Databricks для Lakehouse. Функционально аналогична классическим слоям DWH, но применяется к файловым хранилищам и поддерживает как структурированные, так и неструктурированные данные.

Как инструмент dbt связан со слоями данных?

dbt описывает трансформации между слоями в виде SQL-моделей с версионностью, тестами и документацией. Он превратил ручное управление слоями в CI/CD-практику с автоматической проверкой качества.

Зачем нужен стейджинг-слой, если данные всё равно перезаписываются?

Стейджинг изолирует операционный источник: если трансформация в детальный слой завершилась с ошибкой, данные уже в буфере и не нужно повторно нагружать исходную систему запросами.