Введение
Arenadata DB – российская аналитическая СУБД класса MPP (Massively Parallel Processing), разработанная компанией Arenadata (Москва) на базе открытого проекта Greenplum (VMware/Broadcom) с существенными доработками под требования российского рынка. Включена в Реестр отечественного программного обеспечения Минцифры РФ и рекомендована для замены зарубежных аналитических СУБД: Oracle Exadata, Teradata, IBM Netezza.
Arenadata DB предназначена для построения корпоративных хранилищ данных (DWH) и аналитических платформ, способных обрабатывать петабайтные объёмы структурированных данных с помощью параллельных SQL-запросов, распределённых по узлам кластера.
История и контекст
Greenplum, на котором базируется Arenadata DB, был создан компанией Greenplum Inc. (2003) и приобретён EMC (2010), затем вошёл в состав VMware. В 2015 году Greenplum был открыт под лицензией Apache 2.0. Архитектурно Greenplum основан на PostgreSQL: каждый сегментный узел – полноценный экземпляр Postgres с расширениями для MPP.
Arenadata основана в 2015 году. Помимо Arenadata DB, компания предлагает экосистему продуктов: Arenadata Hadoop (ADS), Arenadata Streaming (Apache Kafka), Arenadata QuickMarts (ClickHouse). Все продукты поддерживаются на российской инфраструктуре и обеспечены отечественной технической поддержкой.
Как это работает
Архитектура Arenadata DB построена на принципе Shared-Nothing MPP:
- Master-нода – принимает SQL-запросы от клиентов, строит план запроса и координирует его выполнение на сегментах.
- Сегментные ноды – каждый узел хранит свою партицию данных и выполняет часть запроса параллельно. Типовой кластер: 4–50+ сегментных хостов.
- Interconnect – высокоскоростная сеть (10GbE/25GbE/InfiniBand) для передачи промежуточных результатов между сегментами при операциях redistribution (например, при JOIN по не-distribution-ключу).
Данные распределяются по сегментам с помощью distribution policy: hash (по значению ключа) или round-robin. Выбор ключа распределения критичен для производительности: неправильный ключ приводит к data skew.
Arenadata DB поддерживает колоночное хранение (Append-Optimized Column-Oriented, AOCO) для максимальной компрессии и скорости аналитических запросов с выборкой небольшого числа столбцов. Расширения: PostGIS для геоданных, MADlib для ML прямо в СУБД.
Где применяется
- Корпоративные DWH: банки (Сбер, ВТБ, Россельхозбанк), телеком (Ростелеком, МТС), ритейл для хранения и анализа петабайтов транзакционных данных.
- Регуляторная отчётность: формирование форм ЦБ РФ, Росстата из централизованного хранилища.
- Импортозамещение: миграция с Oracle Exadata, Teradata, IBM Netezza в рамках требований 187-ФЗ и директив правительства.
- Государственный сектор: централизованные хранилища данных федеральных и региональных ГИС.
Преимущества и ограничения
Преимущества: SQL-совместимость с PostgreSQL; включена в Реестр российского ПО; горизонтальное масштабирование через добавление узлов; поддержка партиционирования таблиц, компрессии данных, ACID-транзакций; российская техподдержка.
Ограничения: сложность администрирования MPP-кластера; data skew при неверном выборе ключа распределения; не подходит для OLTP-нагрузок – только аналитика; при масштабах менее нескольких ТБ ClickHouse или PostgreSQL могут быть более практичны.
Связь с другими понятиями
DWH – Arenadata DB является хранилищем в корпоративной DWH-архитектуре. MPP – класс архитектуры параллельных СУБД для аналитики. Apache Kafka и Apache Spark – компоненты экосистемы Arenadata для потоковой обработки и ETL. BI-платформы подключаются к Arenadata DB через стандартный JDBC/ODBC для построения отчётов и дашбордов.