Термин · Глоссарий B2B-ПО

Data Lake (Data Lake)

Data Lake – централизованное хранилище сырых данных в нативном формате из разнородных источников для последующего анализа и обработки. В отличие от Data Warehouse, данные в Data Lake хранятся без предварительной структуризации, что обеспечивает гибкость для Data Science и ML-проектов.

Буква «D» В категориях: 4 Платформ: 6+

Введение

Data Lake (озеро данных) – централизованное хранилище, предназначенное для хранения данных в их исходном (нативном) формате из разнородных источников: структурированных (базы данных), полуструктурированных (JSON, XML, логи) и неструктурированных (изображения, видео, текст). В отличие от Data Warehouse, в котором данные перед загрузкой проходят ETL-трансформацию под заданную схему, Data Lake применяет принцип «schema on read» – схема данных определяется не при записи, а при чтении под конкретную аналитическую задачу.

Термин «Data Lake» был введён основателем Pentaho Джеймсом Диксоном в 2010 году в противовес «Data Mart» – «маленькому резервуару с очищенной водой для конкретной цели». Data Lake – «огромное природное тело воды, где данные текут в своём природном состоянии».

История и контекст

Data Lake появился как ответ на ограничения традиционных DWH при работе с Big Data. Hadoop HDFS (2006) стал первым массово доступным хранилищем для петабайт данных по низкой стоимости. С появлением облачных объектных хранилищ (Amazon S3, 2006; Azure ADLS; Yandex Object Storage) стоимость хранения снизилась до центов за ГБ, что сделало Data Lake доступным для всех организаций.

В 2020-х годах сформировался гибридный архитектурный паттерн Data Lakehouse, объединяющий гибкость Data Lake и производительность DWH через форматы Delta Lake, Apache Iceberg, Apache Hudi.

Как это работает

Архитектура Data Lake обычно включает несколько зон:

  • Raw Zone (Bronze) – сырые данные в исходном формате, неизменяемые после загрузки.
  • Processed Zone (Silver) – очищенные, дедуплицированные данные с базовыми трансформациями.
  • Curated Zone (Gold) – агрегированные, готовые к анализу датасеты, оптимизированные для BI.

Ключевые технологии: Apache Spark (обработка), Delta Lake / Apache Iceberg (table format), Apache Parquet / ORC (колоночные форматы хранения), Apache Hive Metastore (каталог метаданных).

Где применяется

  • Data Science и Machine Learning – хранение обучающих данных в полном объёме.
  • Аналитика логов и событий – IoT, clickstream, системные логи.
  • Архивирование и compliance – хранение исторических данных для регуляторных нужд.
  • Реорганизация корпоративной дата-архитектуры – единый источник сырых данных для всех потребителей.

Преимущества и ограничения

Преимущества: низкая стоимость хранения; гибкость – любые типы данных без предварительного схемирования; масштабируемость до петабайт; поддержка ML/Data Science workloads.

Ограничения: риск превращения в «Data Swamp» (болото данных) без Data Governance; низкая производительность сложных аналитических запросов по сравнению с DWH; сложность управления метаданными.

Связь с другими понятиями

Data Lake часто противопоставляется Data Warehouse и дополняется им в современных архитектурах. Data Lakehouse объединяет оба подхода. Dark Data скапливается в Raw-зоне Data Lake при отсутствии Data Governance. Data Ingestion обеспечивает загрузку данных в озеро. Data Lineage отслеживает трансформации данных между зонами Lake.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Data Lake».

Платформы класса «Data Lake»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ClickHouse

ClickHouse

ИТ-инфраструктура
ClickHouse — колоночная аналитическая СУБД (OLAP), созданная Яндексом и открытая в 2016 году. Обеспечивает обр...
Цена по запросу
★ 4.8
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →
Phoenix.Data — B2B-платформа для анализа потоков посетителей, оценки покупательского спроса, оптимизации транс...
Цена по запросу
★ 4.0
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Data Lake».

Где применяется

Отрасли, в которых «Data Lake» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Data Lake

Что такое Data Lake?

Централизованное хранилище сырых данных в нативном формате из любых источников. Использует schema on read – схема применяется при чтении, не при записи.

Чем Data Lake отличается от Data Warehouse?

DWH хранит структурированные очищенные данные (schema on write), оптимизирован для BI-запросов. Data Lake хранит сырые данные любых форматов, гибче для Data Science.

Что такое Data Swamp?

«Болото данных» – Data Lake без Data Governance: данные накапливаются без каталога, метаданных и понимания содержимого. Tёмные данные занимают место без пользы.

Что такое Data Lakehouse?

Гибридный архитектурный паттерн, объединяющий гибкость Data Lake и производительность DWH через форматы Delta Lake, Apache Iceberg, Apache Hudi.

Какие российские решения для Data Lake существуют?

Arenadata DB (включает компоненты для Data Lake), ClickHouse (id: 5791) для аналитического слоя, Tarantool Data Grid (id: 6642). Также облачные озёра на Yandex Object Storage.