Введение
Precision (точность классификатора, не путать с общей точностью – accuracy) – метрика, измеряющая долю истинно положительных предсказаний среди всех предсказанных положительных. Формула:
Precision = TP / (TP + FP)
Где TP – True Positive (правильно определённые положительные), FP – False Positive (ложные срабатывания – отрицательные, ошибочно отнесённые к положительному классу). Precision отвечает на вопрос: «Из всего, что модель назвала положительным, сколько действительно является таковым?»
История и контекст
Precision и Recall пришли в ML из теории информационного поиска, где они использовались для оценки документальных поисковых систем с 1950-х годов. В контексте бинарной классификации оба понятия были формализованы и стандартизированы в работах по оценке IR-систем в рамках TREC-конференций (1990-е). Сегодня они входят в стандартный инструментарий любого ML-инженера и репортируются в большинстве исследовательских статей.
Как это работает
Рассмотрим пример: антифрод-модель получает 1000 транзакций. Модель предсказала 50 как мошеннические. Из них 40 действительно мошеннические, 10 – нет.
- TP = 40 (верно найденные мошенничества)
- FP = 10 (легальные транзакции, ошибочно заблокированные)
- Precision = 40 / (40 + 10) = 0,8 (80%)
Высокая Precision означает: когда модель говорит «мошенничество» – она права в 80% случаев. Ложные срабатывания минимальны. Однако Precision не говорит, сколько мошенничеств было пропущено – это измеряет Recall.
Precision-Recall tradeoff
Precision и Recall находятся в обратной зависимости: повышение порога классификации увеличивает Precision (меньше ложных срабатываний), но снижает Recall (больше пропусков). Оптимальный баланс зависит от задачи.
Где применяется
- Антифрод-системы – высокая Precision важна, чтобы не блокировать легальные транзакции клиентов.
- Медицинская диагностика – Precision критична при назначении инвазивных процедур: ложноположительный результат несёт риски для пациента.
- Информационный поиск – Precision@k: сколько из топ-k результатов поиска релевантны.
- Детектирование спама – высокая Precision гарантирует, что легальные письма не попадают в спам.
- NLP-задачи – извлечение информации, NER, классификация текста.
Преимущества и ограничения
Преимущества: интуитивно понятна; критически важна в задачах, где ложные срабатывания дорогостоящи; входит в вычисление F1 и BLEU.
Ограничения: не учитывает ложноотрицательные ошибки (пропущенные положительные); высокая Precision при низком Recall означает, что модель «осторожна», но многое пропускает; при несбалансированных классах может быть высокой у «ленивого» классификатора, предсказывающего редко.
Связь с другими понятиями
Precision неразрывно связана с Recall: вместе они формируют F1. BLEU – precision-ориентированная метрика для машинного перевода: измеряет долю n-грамм кандидата, присутствующих в эталоне. ROUGE – recall-ориентированная: доля n-грамм эталона, воспроизведённых в кандидате. В системе Evaluation (МО) Precision и Recall дополняют accuracy для полной картины качества классификатора. Кросс-валидация обеспечивает надёжную оценку Precision на различных разбивках данных.