Термин · Глоссарий B2B-ПО

DVC (DVC)

Data Version Control – инструмент версионирования данных и ML-пайплайнов, разработанный как надстройка над Git. Хранит метаданные о данных в Git, а сами файлы – во внешних хранилищах (S3, GCS, Azure Blob, SFTP), обеспечивая воспроизводимость ML-экспериментов без загромождения репозитория.

Буква «D» В категориях: 3 Платформ: 6+

Введение

DVC (Data Version Control) – инструмент с открытым кодом для версионирования данных, моделей и ML-пайплайнов. Разработан как надстройка над Git, решающая его ключевое ограничение: Git плохо работает с большими бинарными файлами (датасеты объёмом GB–TB, веса нейросетей). DVC хранит в Git только небольшие файлы-указатели (.dvc-файлы) с хэшами данных, а сами файлы – в удалённом хранилище (S3, Google Cloud Storage, Azure Blob, HDFS, SSH).

История и контекст

DVC создала компания Iterative (основана Дмитрием Петровым) и выпустила в open source в 2017 году. Проект возник из необходимости решить проблему воспроизводимости ML-экспериментов: без версионирования данных эксперимент нельзя точно воспроизвести, даже если код зафиксирован в Git. DVC стал одним из первых и наиболее популярных инструментов MLOps-стека. Позже Iterative расширила экосистему: CML (Continuous Machine Learning) для CI/CD в ML и VS Code Extension для DVC.

Как это работает

Рабочий процесс DVC:

dvc init – инициализация DVC-репозитория в Git-репозитории.
dvc add data/train.csv – добавление файла в DVC: создаётся data/train.csv.dvc (хэш + путь), оригинальный файл добавляется в .gitignore.
dvc remote add origin s3://bucket/path – настройка удалённого хранилища.
dvc push / dvc pull – синхронизация данных между локальной машиной и удалённым хранилищем.
DVC Pipelines – описание цепочки шагов (dvc.yaml): каждый шаг имеет зависимости, команду и выходы. dvc repro перезапускает только изменившиеся шаги – как Makefile для ML.
dvc experiments – управление ML-экспериментами через Git-ветки с автоматическим логированием метрик.

Где применяется

ML-команды с Git-workflow – версионирование датасетов и моделей в привычном Git-окружении.
Воспроизводимость исследований – фиксация точного состояния данных и пайплайна для reproducible ML.
CI/CD для ML – автоматический запуск пайплайнов при изменении данных или кода в CI-системе.
Совместная работа – разные члены команды работают с одними данными через pull/push без дублирования.
Аудит и compliance – точная фиксация того, на каких данных обучена конкретная версия модели.

Преимущества и ограничения

Преимущества: нативная интеграция с Git – привычный workflow для разработчиков; поддержка множества хранилищ (S3, GCS, Azure, SSH, local); бесплатный open source; легковесный (не требует серверной инфраструктуры); DVC Pipelines обеспечивают кэширование шагов.

Ограничения: требует дисциплины: нужно явно трекать все датасеты командой dvc add; при больших числах файлов (миллионы) производительность хэширования снижается; нет встроенного UI для сравнения экспериментов (нужен MLflow или CML).

Связь с другими понятиями

DVC решает проблему версионирования данных – основной компонент для Feature Store (версионирование признаков). MLflow дополняет DVC: MLflow трекает метрики и параметры экспериментов, DVC – данные и пайплайны. Датасет – основной объект версионирования в DVC. Разметка данных – предшествующий этап: размеченный датасет фиксируется в DVC. KubeFlow может использовать DVC для управления данными в рамках оркестрированных пайплайнов.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «DVC».

Платформы класса «DVC»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

НЕ

Нейромодуль

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...

Цена по запросу

Подробнее →

SDP DataLab

Машинное обучение

SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...

Цена по запросу

★ 4.7

Подробнее →

OneRPA платформа роботизации рутинных процессов

Данные и аналитика

Платформа RPA

Цена по запросу

Подробнее →

Lasvilla Искусственный Интеллект В ЖКХ

Чат Бот это удобное решение для взаимодействия с Вашими абонентами.

Цена по запросу

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «DVC».

Управление данными ML-платформы Платформы ИИ/GenAI

Где применяется

Отрасли, в которых «DVC» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Финансы и финтех

Наука и НИИ

Частые вопросы про DVC

Зачем DVC, если есть Git LFS?

Git LFS хранит данные в Git-сервере, ограничен по объёму и дорог. DVC хранит данные в произвольном хранилище (S3, GCS и др.) и оптимизирован для ML-workflow с кэшированием шагов пайплайна.

Работает ли DVC без удалённого хранилища?

Да, можно использовать локально без remote. Но без remote push/pull команды вся ценность версионирования теряется для командной работы.

Чем DVC Pipelines отличается от Airflow?

DVC Pipelines – статический ML-пайплайн с кэшированием шагов (перезапуск только при изменении входов). Airflow – динамический оркестратор задач с расписанием. DVC проще для ML-экспериментов, Airflow для продуктовых ETL.

Как DVC версионирует модели?

Так же как данные: dvc add model.pkl создаёт model.pkl.dvc с хэшем. Модель хранится в remote storage, в Git фиксируется только указатель. При git checkout + dvc pull восстанавливается нужная версия.

Интегрируется ли DVC с MLflow?

Да. DVC управляет данными и пайплайнами, MLflow – трекингом параметров и метрик. Вместе они обеспечивают полную воспроизводимость: данные (DVC) + код + метрики (MLflow).

О термине

Название DVC

English DVC

Раздел Глоссарий

Категорий 3

Отраслей 3

Платформа на связи

Подберём решение по этому классу

Поможем выбрать платформу DVC под бюджет и стек, сравним аналоги, дадим демо у вендора.

Подобрать решение Сравнить

Категории

Управление данными ML-платформы Платформы ИИ/GenAI

Применение по отраслям

Цифровые услуги (B2C, e-commerce, онлайн-сервисы) Финансы и финтех Наука и НИИ

Другие термины

Инженер по облачным технологиям Triple Bottom Line (3BL) P&L Secondment Data Scientist

Весь глоссарий

Алфавитный указатель

А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Ю Я

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «DVC»

Нейромодуль

SDP DataLab

OneRPA платформа роботизации рутинных процессов

Lasvilla Искусственный Интеллект В ЖКХ

БАРС.Мониторинг-ЖКХ

Tarantool Data Grid

Категории каталога

Где применяется

Частые вопросы про DVC

Зачем DVC, если есть Git LFS?

Работает ли DVC без удалённого хранилища?

Чем DVC Pipelines отличается от Airflow?

Как DVC версионирует модели?

Интегрируется ли DVC с MLflow?

Контур.Школа

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли