Термин · Глоссарий B2B-ПО

Data Lake (Data Lake)

Data Lake – централизованное хранилище сырых данных в нативном формате из разнородных источников для последующего анализа и обработки. В отличие от Data Warehouse, данные в Data Lake хранятся без предварительной структуризации, что обеспечивает гибкость для Data Science и ML-проектов.

Буква «D» В категориях: 4 Платформ: 6+

Введение

Data Lake (озеро данных) – централизованное хранилище, предназначенное для хранения данных в их исходном (нативном) формате из разнородных источников: структурированных (базы данных), полуструктурированных (JSON, XML, логи) и неструктурированных (изображения, видео, текст). В отличие от Data Warehouse, в котором данные перед загрузкой проходят ETL-трансформацию под заданную схему, Data Lake применяет принцип «schema on read» – схема данных определяется не при записи, а при чтении под конкретную аналитическую задачу.

Термин «Data Lake» был введён основателем Pentaho Джеймсом Диксоном в 2010 году в противовес «Data Mart» – «маленькому резервуару с очищенной водой для конкретной цели». Data Lake – «огромное природное тело воды, где данные текут в своём природном состоянии».

История и контекст

Data Lake появился как ответ на ограничения традиционных DWH при работе с Big Data. Hadoop HDFS (2006) стал первым массово доступным хранилищем для петабайт данных по низкой стоимости. С появлением облачных объектных хранилищ (Amazon S3, 2006; Azure ADLS; Yandex Object Storage) стоимость хранения снизилась до центов за ГБ, что сделало Data Lake доступным для всех организаций.

В 2020-х годах сформировался гибридный архитектурный паттерн Data Lakehouse, объединяющий гибкость Data Lake и производительность DWH через форматы Delta Lake, Apache Iceberg, Apache Hudi.

Как это работает

Архитектура Data Lake обычно включает несколько зон:

Raw Zone (Bronze) – сырые данные в исходном формате, неизменяемые после загрузки.
Processed Zone (Silver) – очищенные, дедуплицированные данные с базовыми трансформациями.
Curated Zone (Gold) – агрегированные, готовые к анализу датасеты, оптимизированные для BI.

Ключевые технологии: Apache Spark (обработка), Delta Lake / Apache Iceberg (table format), Apache Parquet / ORC (колоночные форматы хранения), Apache Hive Metastore (каталог метаданных).

Где применяется

Data Science и Machine Learning – хранение обучающих данных в полном объёме.
Аналитика логов и событий – IoT, clickstream, системные логи.
Архивирование и compliance – хранение исторических данных для регуляторных нужд.
Реорганизация корпоративной дата-архитектуры – единый источник сырых данных для всех потребителей.

Преимущества и ограничения

Преимущества: низкая стоимость хранения; гибкость – любые типы данных без предварительного схемирования; масштабируемость до петабайт; поддержка ML/Data Science workloads.

Ограничения: риск превращения в «Data Swamp» (болото данных) без Data Governance; низкая производительность сложных аналитических запросов по сравнению с DWH; сложность управления метаданными.

Связь с другими понятиями

Data Lake часто противопоставляется Data Warehouse и дополняется им в современных архитектурах. Data Lakehouse объединяет оба подхода. Dark Data скапливается в Raw-зоне Data Lake при отсутствии Data Governance. Data Ingestion обеспечивает загрузку данных в озеро. Data Lineage отслеживает трансформации данных между зонами Lake.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Data Lake».

Платформы класса «Data Lake»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ClickHouse

ИТ-инфраструктура

ClickHouse — колоночная аналитическая СУБД (OLAP), созданная Яндексом и открытая в 2016 году. Обеспечивает обр...

Цена по запросу

★ 4.8

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

Phoenix.Data

Phoenix.Data — B2B-платформа для анализа потоков посетителей, оценки покупательского спроса, оптимизации транс...

Цена по запросу

★ 4.0

Подробнее →

1С-КАМИН:Зарплата для бюджетных учреждений. Версия 5.5

Универсальный продукт, предназначенный для расчёта заработной платы, ведения кадрового учёта, расчёта налогов...

Цена по запросу

★ 4.8

Подробнее →

Инструментальная система управления базами данных "CronosPRO"

ИТ-инфраструктура

Инструментальная нереляционная (сетевая) СУБД для построения информационных систем с гибкой структурой данных....

Цена по запросу

★ 4.2

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Data Lake».

Данные и аналитика Управление данными Хранилища данных (DWH) Озера данных (Data Lake)

Где применяется

Отрасли, в которых «Data Lake» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Промышленность и производство

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Финансы и финтех

Торговля (оптовая и розничная)

Связь и телеком

Частые вопросы про Data Lake

Что такое Data Lake?

Централизованное хранилище сырых данных в нативном формате из любых источников. Использует schema on read – схема применяется при чтении, не при записи.

Чем Data Lake отличается от Data Warehouse?

DWH хранит структурированные очищенные данные (schema on write), оптимизирован для BI-запросов. Data Lake хранит сырые данные любых форматов, гибче для Data Science.

Что такое Data Swamp?

«Болото данных» – Data Lake без Data Governance: данные накапливаются без каталога, метаданных и понимания содержимого. Tёмные данные занимают место без пользы.

Что такое Data Lakehouse?

Гибридный архитектурный паттерн, объединяющий гибкость Data Lake и производительность DWH через форматы Delta Lake, Apache Iceberg, Apache Hudi.

Какие российские решения для Data Lake существуют?

Arenadata DB (включает компоненты для Data Lake), ClickHouse (id: 5791) для аналитического слоя, Tarantool Data Grid (id: 6642). Также облачные озёра на Yandex Object Storage.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Data Lake»

ClickHouse

Tarantool Data Grid

Phoenix.Data

1С-КАМИН:Зарплата для бюджетных учреждений. Версия 5.5

Инструментальная система управления базами данных "CronosPRO"

БАРС.Мониторинг-ЖКХ

Категории каталога

Где применяется

Частые вопросы про Data Lake

Что такое Data Lake?

Чем Data Lake отличается от Data Warehouse?

Что такое Data Swamp?

Что такое Data Lakehouse?

Какие российские решения для Data Lake существуют?

Контур Налоговый мониторинг

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли