Термин · Глоссарий B2B-ПО

DWH (DWH)

DWH (Data Warehouse, хранилище данных) – специализированная база данных, предназначенная для хранения и аналитической обработки больших объёмов исторических данных из разных источников. DWH служит основой для бизнес-аналитики, отчётности и принятия решений на основе данных.

Буква «D» В категориях: 4 Платформ: 6+

Введение

DWH (Data Warehouse, хранилище данных) – это специализированная аналитическая база данных, предназначенная для хранения, интеграции и анализа исторических данных из множества операционных систем предприятия. В отличие от транзакционных СУБД (OLTP), ориентированных на быстрое выполнение операций чтения/записи, DWH оптимизировано для сложных аналитических запросов (OLAP) над большими объёмами данных – с агрегациями, сравнениями периодов, трендами.

DWH является фундаментом корпоративной бизнес-аналитики (BI): на его основе строятся дашборды, отчёты для руководства, финансовые прогнозы, анализ эффективности. Компании консолидируют в DWH данные из ERP, CRM, e-commerce, колл-центров, внешних источников для получения единой версии правды (single source of truth).

История и контекст

Концепция DWH разработана Биллом Инмоном в конце 1980-х годов. В 1992 году Инмон опубликовал книгу «Building the Data Warehouse», давшую предметной области определение: «ориентированная на субъект, интегрированная, неизменяемая, зависящая от времени коллекция данных». Ральф Кимбалл предложил альтернативный подход – размерное моделирование (dimensional modeling) с «звёздными» схемами, упрощающими аналитические запросы.

В 2010-х облачные DWH (Amazon Redshift, 2012; Google BigQuery, 2010; Snowflake, 2014) демократизировали технологию, устранив необходимость покупки дорогостоящего on-premise оборудования. Параллельно появилась концепция Data Lake – хранилища сырых данных в исходном формате. Современный тренд – Data Lakehouse (Delta Lake, Apache Iceberg), сочетающий гибкость Data Lake с управляемостью DWH. В России ClickHouse, разработанный в Яндексе, стал популярной основой для построения DWH.

Как это работает

Данные поступают в DWH через ETL (Extract, Transform, Load) или ELT-процессы. Extract: извлечение данных из источников (ERP, CRM, веб-аналитика, внешние API). Transform: очистка, нормализация, обогащение, приведение к единой схеме. Load: загрузка в DWH по расписанию (batch) или в реальном времени (streaming через Kafka). Слой данных организуется по принципам ODS (Operational Data Store), DDS (Data Detail Store), DM (Data Mart).

Схемы данных в DWH: звезда (star schema) – центральная таблица фактов окружена таблицами измерений; снежинка (snowflake schema) – нормализованная версия звезды. Колоночное хранение (columnar storage) обеспечивает быстрое выполнение аналитических запросов – данные одного столбца хранятся последовательно, что ускоряет агрегации. Партиционирование по времени и сжатие данных снижают объём хранилища и ускоряют запросы.

Где применяется

Финансовый сектор: банки строят DWH для регуляторной отчётности (ЦБ РФ, МСФО), риск-менеджмента, анализа клиентского поведения, антифрода. Ритейл: анализ продаж, товарных остатков, ABC/XYZ-анализ, ценообразование, прогнозирование спроса. Телекоммуникации: биллинговая аналитика, churn-анализ, оптимизация сети.

Государственный сектор: консолидация данных различных ФОИВ для аналитики, подготовки докладов, оценки KPI государственных программ. Платформы «Гостех» и ГосДата предполагают централизованное хранение и обработку данных. В России ClickHouse используется в Яндекс.Метрике (более 13 трлн строк), VK, крупнейших банках и госструктурах как основа высокопроизводительных DWH.

Связь с другими понятиями

DWH строится поверх СУБД или специализированных аналитических движков (ClickHouse, Greenplum, Apache Hive). NoSQL хранилища используются для Data Lake-слоя. Облачные DWH (IaaS/PaaS) снижают инфраструктурные затраты. BI-системы (Tableau, Power BI, российский Visiology, Нота Визор) подключаются к DWH как источнику данных для визуализации. Data Pipeline инструменты (Apache Airflow, dbt) автоматизируют ETL-процессы. MLOps-платформы используют DWH как источник обучающих данных для моделей машинного обучения.

Преимущества и ограничения

Преимущества: единый источник данных для всей аналитики компании, высокая скорость аналитических запросов благодаря колоночному хранению, историчность (хранение снимков данных во времени), разделение аналитических нагрузок от операционных систем, поддержка сложных OLAP-запросов с агрегациями.

Ограничения: значительные затраты на внедрение и поддержку, необходимость проектирования схем данных заранее, задержка данных (latency) при batch-загрузке, сложность обеспечения качества данных из разных источников, высокие требования к компетенциям Data Engineer и аналитиков.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «DWH».

Платформы класса «DWH»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ClickHouse

ClickHouse

ИТ-инфраструктура
ClickHouse — колоночная аналитическая СУБД (OLAP), созданная Яндексом и открытая в 2016 году. Обеспечивает обр...
Цена по запросу
★ 4.8
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →
LA

LAVR

BI-платформы
LAVR — платформа для анализа данных и их взаимосвязей на основе графовой модели. Позволяет загружать данные в...
Цена по запросу
★ 4.3
Подробнее →
RD

RT DataBase

Хранилища данных (DWH)
RT DataBase — российская система управления базами данных, разработанная ООО «РТ-ДИАСОФТ» (входит в экосистему...
Цена по запросу
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «DWH».

Где применяется

Отрасли, в которых «DWH» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про DWH

Чем DWH отличается от обычной СУБД?

DWH оптимизировано для аналитики: колоночное хранение, агрегации, исторические данные. Обычная СУБД (OLTP) оптимизирована для транзакций: быстрые операции чтения/записи одиночных записей.

Что такое ETL в контексте DWH?

ETL (Extract, Transform, Load) – процесс извлечения данных из источников, преобразования (очистка, нормализация, объединение) и загрузки в DWH. Обычно выполняется по расписанию или в реальном времени.

Что такое Data Lake и чем отличается от DWH?

Data Lake хранит сырые данные в исходном формате без жёсткой схемы – дешевле, но сложнее использовать. DWH хранит очищенные структурированные данные с заданной схемой – быстрее для BI-запросов.

Какие DWH-решения популярны в России?

ClickHouse (Яндекс, открытый код), Greenplum (VMware, широко используется в банках), PostgresPro Certified, Arenadata DB. Облачные варианты: Yandex DataLens с Yandex Managed ClickHouse.

Что такое OLAP?

OLAP (Online Analytical Processing) – технология многомерного анализа данных. OLAP-куб содержит меры (сумма продаж) и измерения (время, регион, товар), позволяя срезать данные по любой комбинации измерений.

Зачем DWH государственным организациям?

Для консолидации данных разных ведомств, подготовки регуляторной отчётности, оценки KPI госпрограмм и анализа эффективности. Платформы ГосДата и Гостех включают DWH-компоненты для единой аналитики.