Термин · Глоссарий B2B-ПО

Feature Store (Feature Store)

Централизованное хранилище вычисленных ML-признаков с управлением версиями, обеспечивающее их переиспользование при обучении и онлайн-инференсе. Решает проблему train-serve skew – расхождения между признаками в обучении и в production.

Буква «F» В категориях: 3 Платформ: 6+

Введение

Feature Store (хранилище признаков) – специализированная система управления данными для машинного обучения, обеспечивающая централизованное хранение, вычисление, версионирование и предоставление ML-признаков. Feature Store стоит между источниками сырых данных и ML-моделями, гарантируя, что одни и те же признаки используются как при обучении, так и при инференсе в production.

Ключевая проблема, которую решает Feature Store – train-serve skew: расхождение между логикой вычисления признаков в offline (обучение) и online (prediction service) средах. Это расхождение является одной из наиболее частых причин деградации ML-моделей после деплоя.

История и контекст

Концепция Feature Store была впервые систематически реализована в Uber (Michelangelo, 2017) и Airbnb (Zipline, 2017). Позже открытые и коммерческие реализации появились от Feast (open source), Tecton, Vertex AI Feature Store (Google), Amazon SageMaker Feature Store, Databricks Feature Store. В России аналогичные решения реализуют крупные финтех-компании (Сбер, Тинькофф) в рамках собственных ML-платформ.

Как это работает

Feature Store обычно состоит из двух уровней:

  • Offline store – хранилище исторических признаков для обучения (как правило, data lake или data warehouse: S3 + Parquet, BigQuery). Поддерживает point-in-time correct joins: признаки вычисляются по состоянию на момент события, а не текущему.
  • Online store – low-latency хранилище актуальных признаков для real-time inference (Redis, DynamoDB, Cassandra). Обновляется потоком или по расписанию из offline store.

Дополнительные компоненты: Feature Registry – каталог доступных признаков с документацией и версиями; Feature Pipeline – ETL-процесс вычисления и обновления признаков; Materialization – процесс наполнения online store актуальными значениями.

Где применяется

  • Рекомендательные системы – хранение и быстрое получение пользовательских и товарных embeddings для real-time рекомендаций.
  • Антифрод – признаки транзакционного поведения пользователя с low-latency доступом при скоринге.
  • Кредитный скоринг – исторические финансовые признаки с point-in-time correct joins.
  • Персонализация – профили пользователей для content-based и collaborative filtering.
  • Несколько ML-команд в организации – переиспользование признаков без дублирования вычислений.

Преимущества и ограничения

Преимущества: устраняет train-serve skew; ускоряет разработку через переиспользование признаков; централизованная документация и governance; point-in-time correctness при обучении.

Ограничения: значительные инфраструктурные затраты на поддержку online и offline хранилищ; сложность настройки; overhead при работе с нечасто используемыми признаками; риск «монолитизации» если Feature Store становится узким местом.

Связь с другими понятиями

Дрейф данных – Feature Store помогает обнаружить его через мониторинг статистик признаков. Online Inference потребляет признаки из online store Feature Store с минимальной задержкой. Batch Inference использует offline store для пакетной выборки признаков. MLflow логирует, какие версии признаков использовались при каждом обучении. DVC версионирует сырые данные до Feature Store.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Feature Store».

Платформы класса «Feature Store»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...
Цена по запросу
Подробнее →
SD

SDP DataLab

Машинное обучение
SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...
Цена по запросу
★ 4.7
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Feature Store».

Где применяется

Отрасли, в которых «Feature Store» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Feature Store

Что такое train-serve skew?

Расхождение между логикой вычисления признаков при обучении и при prediction service в production. Приводит к деградации модели несмотря на хорошие offline метрики. Feature Store устраняет эту проблему.

Чем online store отличается от offline store в Feature Store?

Online store – low-latency KV-хранилище (Redis) для real-time inference. Offline store – bulk-хранилище (S3/BigQuery) исторических признаков для обучения. Offline store обычно намного дешевле.

Что такое point-in-time correct join?

Технология, обеспечивающая, что при обучении модели используются значения признаков, актуальные на момент каждого события – без data leakage из будущих данных.

Какие открытые Feature Store существуют?

Feast (наиболее популярный open source), Hopsworks (open source + managed), Featureform. Коммерческие: Tecton, Vertex AI Feature Store, Amazon SageMaker Feature Store.

Нужен ли Feature Store малой ML-команде?

Для команды до 5 человек и 2–3 моделей Feature Store – избыточное решение. Оправдан при множестве моделей, переиспользующих признаки, или при критичности train-serve skew.