Термин · Глоссарий B2B-ПО

Feature Store (Feature Store)

Централизованное хранилище вычисленных ML-признаков с управлением версиями, обеспечивающее их переиспользование при обучении и онлайн-инференсе. Решает проблему train-serve skew – расхождения между признаками в обучении и в production.

Буква «F» В категориях: 3 Платформ: 6+

Введение

Feature Store (хранилище признаков) – специализированная система управления данными для машинного обучения, обеспечивающая централизованное хранение, вычисление, версионирование и предоставление ML-признаков. Feature Store стоит между источниками сырых данных и ML-моделями, гарантируя, что одни и те же признаки используются как при обучении, так и при инференсе в production.

Ключевая проблема, которую решает Feature Store – train-serve skew: расхождение между логикой вычисления признаков в offline (обучение) и online (prediction service) средах. Это расхождение является одной из наиболее частых причин деградации ML-моделей после деплоя.

История и контекст

Концепция Feature Store была впервые систематически реализована в Uber (Michelangelo, 2017) и Airbnb (Zipline, 2017). Позже открытые и коммерческие реализации появились от Feast (open source), Tecton, Vertex AI Feature Store (Google), Amazon SageMaker Feature Store, Databricks Feature Store. В России аналогичные решения реализуют крупные финтех-компании (Сбер, Тинькофф) в рамках собственных ML-платформ.

Как это работает

Feature Store обычно состоит из двух уровней:

Offline store – хранилище исторических признаков для обучения (как правило, data lake или data warehouse: S3 + Parquet, BigQuery). Поддерживает point-in-time correct joins: признаки вычисляются по состоянию на момент события, а не текущему.
Online store – low-latency хранилище актуальных признаков для real-time inference (Redis, DynamoDB, Cassandra). Обновляется потоком или по расписанию из offline store.

Дополнительные компоненты: Feature Registry – каталог доступных признаков с документацией и версиями; Feature Pipeline – ETL-процесс вычисления и обновления признаков; Materialization – процесс наполнения online store актуальными значениями.

Где применяется

Рекомендательные системы – хранение и быстрое получение пользовательских и товарных embeddings для real-time рекомендаций.
Антифрод – признаки транзакционного поведения пользователя с low-latency доступом при скоринге.
Кредитный скоринг – исторические финансовые признаки с point-in-time correct joins.
Персонализация – профили пользователей для content-based и collaborative filtering.
Несколько ML-команд в организации – переиспользование признаков без дублирования вычислений.

Преимущества и ограничения

Преимущества: устраняет train-serve skew; ускоряет разработку через переиспользование признаков; централизованная документация и governance; point-in-time correctness при обучении.

Ограничения: значительные инфраструктурные затраты на поддержку online и offline хранилищ; сложность настройки; overhead при работе с нечасто используемыми признаками; риск «монолитизации» если Feature Store становится узким местом.

Связь с другими понятиями

Дрейф данных – Feature Store помогает обнаружить его через мониторинг статистик признаков. Online Inference потребляет признаки из online store Feature Store с минимальной задержкой. Batch Inference использует offline store для пакетной выборки признаков. MLflow логирует, какие версии признаков использовались при каждом обучении. DVC версионирует сырые данные до Feature Store.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Feature Store».

Платформы класса «Feature Store»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

НЕ

Нейромодуль

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...

Цена по запросу

Подробнее →

SDP DataLab

Машинное обучение

SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...

Цена по запросу

★ 4.7

Подробнее →

OneRPA платформа роботизации рутинных процессов

Данные и аналитика

Платформа RPA

Цена по запросу

Подробнее →

Lasvilla Искусственный Интеллект В ЖКХ

Чат Бот это удобное решение для взаимодействия с Вашими абонентами.

Цена по запросу

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Feature Store».

Данные и аналитика Управление данными ML-платформы

Где применяется

Отрасли, в которых «Feature Store» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Финансы и финтех

Торговля (оптовая и розничная)

Частые вопросы про Feature Store

Что такое train-serve skew?

Расхождение между логикой вычисления признаков при обучении и при prediction service в production. Приводит к деградации модели несмотря на хорошие offline метрики. Feature Store устраняет эту проблему.

Чем online store отличается от offline store в Feature Store?

Online store – low-latency KV-хранилище (Redis) для real-time inference. Offline store – bulk-хранилище (S3/BigQuery) исторических признаков для обучения. Offline store обычно намного дешевле.

Что такое point-in-time correct join?

Технология, обеспечивающая, что при обучении модели используются значения признаков, актуальные на момент каждого события – без data leakage из будущих данных.

Какие открытые Feature Store существуют?

Feast (наиболее популярный open source), Hopsworks (open source + managed), Featureform. Коммерческие: Tecton, Vertex AI Feature Store, Amazon SageMaker Feature Store.

Нужен ли Feature Store малой ML-команде?

Для команды до 5 человек и 2–3 моделей Feature Store – избыточное решение. Оправдан при множестве моделей, переиспользующих признаки, или при критичности train-serve skew.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Feature Store»

Нейромодуль

SDP DataLab

OneRPA платформа роботизации рутинных процессов

Lasvilla Искусственный Интеллект В ЖКХ

БАРС.Мониторинг-ЖКХ

Tarantool Data Grid

Категории каталога

Где применяется

Частые вопросы про Feature Store

Что такое train-serve skew?

Чем online store отличается от offline store в Feature Store?

Что такое point-in-time correct join?

Какие открытые Feature Store существуют?

Нужен ли Feature Store малой ML-команде?

Контур Фокус Комплаенс API

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли