Термин · Глоссарий B2B-ПО

DVC (DVC)

Data Version Control – инструмент версионирования данных и ML-пайплайнов, разработанный как надстройка над Git. Хранит метаданные о данных в Git, а сами файлы – во внешних хранилищах (S3, GCS, Azure Blob, SFTP), обеспечивая воспроизводимость ML-экспериментов без загромождения репозитория.

Буква «D» В категориях: 3 Платформ: 6+

Введение

DVC (Data Version Control) – инструмент с открытым кодом для версионирования данных, моделей и ML-пайплайнов. Разработан как надстройка над Git, решающая его ключевое ограничение: Git плохо работает с большими бинарными файлами (датасеты объёмом GB–TB, веса нейросетей). DVC хранит в Git только небольшие файлы-указатели (.dvc-файлы) с хэшами данных, а сами файлы – в удалённом хранилище (S3, Google Cloud Storage, Azure Blob, HDFS, SSH).

История и контекст

DVC создала компания Iterative (основана Дмитрием Петровым) и выпустила в open source в 2017 году. Проект возник из необходимости решить проблему воспроизводимости ML-экспериментов: без версионирования данных эксперимент нельзя точно воспроизвести, даже если код зафиксирован в Git. DVC стал одним из первых и наиболее популярных инструментов MLOps-стека. Позже Iterative расширила экосистему: CML (Continuous Machine Learning) для CI/CD в ML и VS Code Extension для DVC.

Как это работает

Рабочий процесс DVC:

  • dvc init – инициализация DVC-репозитория в Git-репозитории.
  • dvc add data/train.csv – добавление файла в DVC: создаётся data/train.csv.dvc (хэш + путь), оригинальный файл добавляется в .gitignore.
  • dvc remote add origin s3://bucket/path – настройка удалённого хранилища.
  • dvc push / dvc pull – синхронизация данных между локальной машиной и удалённым хранилищем.
  • DVC Pipelines – описание цепочки шагов (dvc.yaml): каждый шаг имеет зависимости, команду и выходы. dvc repro перезапускает только изменившиеся шаги – как Makefile для ML.
  • dvc experiments – управление ML-экспериментами через Git-ветки с автоматическим логированием метрик.

Где применяется

  • ML-команды с Git-workflow – версионирование датасетов и моделей в привычном Git-окружении.
  • Воспроизводимость исследований – фиксация точного состояния данных и пайплайна для reproducible ML.
  • CI/CD для ML – автоматический запуск пайплайнов при изменении данных или кода в CI-системе.
  • Совместная работа – разные члены команды работают с одними данными через pull/push без дублирования.
  • Аудит и compliance – точная фиксация того, на каких данных обучена конкретная версия модели.

Преимущества и ограничения

Преимущества: нативная интеграция с Git – привычный workflow для разработчиков; поддержка множества хранилищ (S3, GCS, Azure, SSH, local); бесплатный open source; легковесный (не требует серверной инфраструктуры); DVC Pipelines обеспечивают кэширование шагов.

Ограничения: требует дисциплины: нужно явно трекать все датасеты командой dvc add; при больших числах файлов (миллионы) производительность хэширования снижается; нет встроенного UI для сравнения экспериментов (нужен MLflow или CML).

Связь с другими понятиями

DVC решает проблему версионирования данных – основной компонент для Feature Store (версионирование признаков). MLflow дополняет DVC: MLflow трекает метрики и параметры экспериментов, DVC – данные и пайплайны. Датасет – основной объект версионирования в DVC. Разметка данных – предшествующий этап: размеченный датасет фиксируется в DVC. KubeFlow может использовать DVC для управления данными в рамках оркестрированных пайплайнов.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «DVC».

Платформы класса «DVC»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...
Цена по запросу
Подробнее →
SD

SDP DataLab

Машинное обучение
SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...
Цена по запросу
★ 4.7
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «DVC».

Где применяется

Отрасли, в которых «DVC» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про DVC

Зачем DVC, если есть Git LFS?

Git LFS хранит данные в Git-сервере, ограничен по объёму и дорог. DVC хранит данные в произвольном хранилище (S3, GCS и др.) и оптимизирован для ML-workflow с кэшированием шагов пайплайна.

Работает ли DVC без удалённого хранилища?

Да, можно использовать локально без remote. Но без remote push/pull команды вся ценность версионирования теряется для командной работы.

Чем DVC Pipelines отличается от Airflow?

DVC Pipelines – статический ML-пайплайн с кэшированием шагов (перезапуск только при изменении входов). Airflow – динамический оркестратор задач с расписанием. DVC проще для ML-экспериментов, Airflow для продуктовых ETL.

Как DVC версионирует модели?

Так же как данные: dvc add model.pkl создаёт model.pkl.dvc с хэшем. Модель хранится в remote storage, в Git фиксируется только указатель. При git checkout + dvc pull восстанавливается нужная версия.

Интегрируется ли DVC с MLflow?

Да. DVC управляет данными и пайплайнами, MLflow – трекингом параметров и метрик. Вместе они обеспечивают полную воспроизводимость: данные (DVC) + код + метрики (MLflow).