Что такое ROC AUC простыми словами?

ROC AUC — это площадь под ROC-кривой (Receiver Operating Characteristic), которая показывает насколько хорошо модель отличает один класс от другого. Значение от 0 до 1: 0.5 = случайное угадывание, 1.0 = идеальная модель. Математически — это вероятность того, что случайный объект класса 1 получит оценку выше, чем случайный объект класса 0 (статистика Уилкоксона–Манна–Уитни).

Как интерпретировать значение ROC AUC?

ROC AUC 0.5–0.6 — плохая модель, 0.6–0.7 — слабая, 0.7–0.8 — приемлемая, 0.8–0.9 — хорошая, 0.9–1.0 — отличная. Для большинства бизнес-задач production-ready уровень — AUC > 0.80. В банковском скоринге тот же показатель называют Gini: Gini = 2·AUC - 1.

Когда ROC AUC не подходит как метрика?

ROC AUC плохо работает при сильном дисбалансе классов (например, 99% vs 1%), когда важна только верхняя часть ранжирования (рекомендации, поиск), и когда нужна калибровка вероятностей. В этих случаях лучше использовать PR AUC, Precision@K или Log Loss.

Как вычислить ROC AUC в Python через scikit-learn?

from sklearn.metrics import roc_auc_score; score = roc_auc_score(y_true, y_pred_proba). Функция принимает истинные метки и вероятности (не жёсткие предсказания 0/1). Для построения кривой: roc_curve(y_true, y_scores) возвращает fpr, tpr, thresholds.

Чем ROC AUC отличается от PR AUC?

ROC AUC оценивает ранжирование при всех порогах и инвариантна к балансу классов. PR AUC (площадь под Precision-Recall кривой) информативнее при сильном дисбалансе — например в fraud detection или диагностике редких заболеваний. На сбалансированных данных обе метрики согласуются.

ROC AUC всему голова: главная метрика ранжирования

Каждый раз, когда кто-то говорит «наша модель показывает 95% accuracy», опытный ML-инженер настораживается. Потому что accuracy — это обманчивая метрика. Она не учитывает дисбаланс классов, стоимость ошибок и то, что модель, которая всегда говорит «нет» — уже «95% точная» при 5% положительных примеров.

Я работаю Data Scientist-ом, и ROC AUC — это первое, на что смотрю при оценке любой новой модели. Неважно, кредитный скоринг это или детектор аномалий на транзакциях: открываю отчёт, вижу AUC — и уже понимаю, стоит ли читать дальше.

Есть одна метрика, которая решает почти все эти проблемы. Которую используют в банковском скоринге, медицинской диагностике, fraud detection, рекомендательных системах и на каждом втором Kaggle-соревновании.

AUC ROC (Area Under the Receiver Operating Characteristic curve) — площадь под кривой ошибок. Значение от 0 до 1. Чем ближе к 1 — тем лучше модель отделяет классы друг от друга. 0.5 — случайное угадывание. Ниже 0.5 — модель работает «наоборот».

Шкала качества AUC ROC

0.0 - 0.50.5 - 0.60.6 - 0.80.8 - 0.90.9 - 1.0

БесполезнаяСлабаяНормальнаяХорошаяОтличная

0.5

Случайная модель

бесполезная

0.7-0.8

Нормальная модель

рабочий уровень

0.8-0.9

Хорошая модель

production-ready

0.95+

Отличная модель

state-of-the-art

Эта шкала — практическое соглашение, описанное в руководстве University of Nebraska Medical Center по ROC-анализу. В разных областях пороги могут отличаться: в медицинской диагностике AUC > 0.90 часто считается минимальным приемлемым, тогда как в рекомендательных системах 0.75 уже хорошо.

Зачем вообще ROC AUC?

Допустим, мы решаем задачу бинарной классификации: есть два класса — 0 и 1. Модель не выдаёт жёсткий ответ «да/нет». Она выдаёт оценку (score) — число от 0 до 1. Чем выше оценка, тем увереннее модель, что объект принадлежит классу 1.

Проблема: какой порог выбрать? Если порог 0.5 — одни ошибки. Если 0.3 — другие. Если 0.7 — третьи.

Проблема порога бинаризации

Модель

Выдаёт score [0, 1]

Порог?

0.3? 0.5? 0.7?

Класс 0 / 1

Жёсткое решение

Ошибки

FP и FN зависят от порога

ROC AUC решает эту проблему радикально: она оценивает качество модели при всех возможных порогах одновременно. Не нужно выбирать порог — AUC показывает, насколько хорошо модель упорядочивает объекты двух классов. Именно поэтому Google ML Crash Course называет AUC одной из наиболее полезных метрик в бинарной классификации.

Как строится ROC-кривая

Разберём на конкретном примере. Пусть модель выдала оценки для 7 объектов:

Оценка модели	Истинный класс
A	0.95	1
B	0.87	1
C	0.68	0
D	0.55	1
E	0.43	0
F	0.38	0
G	0.12	0

Объекты уже отсортированы по убыванию оценки. В идеале столбец «класс» тоже будет упорядочен: сначала все 1, потом все 0. Именно этот алгоритм реализует функция sklearn.metrics.roc_curve.

Ключевая идея: Берём единичный квадрат. Разбиваем по горизонтали на n частей (число нулей = 4), по вертикали на m частей (число единиц = 3). Идём сверху вниз по таблице: видим 1 — шаг вверх, видим 0 — шаг вправо. Получаем ROC-кривую.

Алгоритм построения

Шаг 1

Отсортировать

Упорядочить объекты по убыванию score модели. Лучшие — сверху.

Шаг 2

Нарисовать сетку

m x n блоков. m = количество единиц (3), n = количество нулей (4). Старт из (0,0).

Шаг 3

Пройти сверху вниз

Класс = 1 -> шаг вверх. Класс = 0 -> шаг вправо. Финиш в (1,1).

Шаг 4

Посчитать площадь

Площадь под получившейся кривой = AUC ROC. В нашем примере: 9.5/12 = 0.79

Шаг 5

Интерпретировать

0.79 — модель правильно упорядочивает 79% пар (объект класса 1, объект класса 0)

Шаг 6

Сравнить с baseline

Диагональ = 0.5 (случайный). Верхний угол = 1.0 (идеальный). Наш 0.79 — хорошо!

Для нашего примера путь: up up right up right right right — это и есть ROC-кривая.

9.5/12

Площадь под кривой

= AUC ROC

0.79

AUC ROC

хорошая модель

Построение ROC-кривой по шагам

A(1)

B(1)

C(0)

D(1)

E(0)

F(0)

G(0)

1=step UP|0=step RIGHT|Path: UP UP RIGHT UP RIGHT RIGHT RIGHT

Смысл и формулы

Главная интерпретация AUC ROC, которую важно запомнить — она напрямую связана со статистикой Уилкоксона–Манна–Уитни:

AUC ROC = вероятность того, что случайный объект класса 1 получит оценку выше, чем случайный объект класса 0.

Wilcoxon-Mann-Whitney statistic, Статистическая интерпретация

Эта интерпретация описана в работе Hanley & McNeil (1982) — одной из первых, формализовавших применение ROC-анализа в медицине. Формально:

Формула AUC (Wilcoxon-Mann-Whitney)

AUC = \frac{1}{m \cdot n} \sum_{i=1}^{m} \sum_{j=1}^{n} \left[ \mathbb{I}\big(s(x_1^{(i)}) > s(x_0^{(j)})\big) + \frac{1}{2} \cdot \mathbb{I}\big(s(x_1^{(i)}) = s(x_0^{(j)})\big) \right]

где суммирование идёт по всем парам ( $x_1$ из класса 1, $x_0$ из класса 0), $m$ — число объектов класса 1, $n$ — число объектов класса 0, $s(\cdot)$ — оценка модели, $\mathbb{I}(\cdot)$ — индикаторная функция. Именно так реализован roc_auc_score в scikit-learn.

Частая ошибка: В формуле нередко упускают случай равенства ответов модели. Если два объекта получили одинаковый score — это пол-ошибки, а не целая. Отсюда коэффициент 0.5 в формуле.

Визуализация всех пар

Каждая ячейка — пара (объект класса 1, объект класса 0). Зелёная = правильный порядок. Красная = ошибка.

Строки: A, B, D (класс 1)|Столбцы: C, E, F, G (класс 0)|11 из 12 пар верно|

AUC = \frac{11 + 0.5 \cdot 0}{12} \approx 0.79

Порог и бинаризация

ROC-кривая строится в пространстве FPR (ось X) vs TPR (ось Y). Каждая точка кривой — это результат при конкретном пороге бинаризации. Подробнее об этих метриках — в документации scikit-learn по ROC-метрикам.

True Positive Rate (Sensitivity)

TPR = \frac{TP}{TP + FN}

False Positive Rate (1 - Specificity)

FPR = \frac{FP}{FP + TN}

Вернёмся к нашему примеру. Выберем порог 0.5 — объекты с оценкой > 0.5 относим к классу 1.

Score	Истинный	Предсказанный	Результат
A	0.95	1	1	TP
B	0.87	1	1	TP
C	0.68	0	1	FP
D	0.55	1	1	TP
E	0.43	0	0	TN
F	0.38	0	0	TN
G	0.12	0	0	TN

True Positive

из 3 возможных

False Positive

из 4 нулей

True Negative

из 4 нулей

False Negative

все единицы найдены

TPR = \frac{TP}{TP + FN} = \frac{3}{3} = 1.0

FPR = \frac{FP}{FP + TN} = \frac{1}{4} = 0.25

Точка на ROC-кривой: (0.25, 1.0)

Как меняется точка на ROC-кривой при разных порогах

Порог	TP	FP	TN	FN	TPR	FPR	Точка (FPR, TPR)
1.0	0	0	4	3	0.00	0.00	(0, 0)
0.90	1	0	4	2	0.33	0.00	(0, 0.33)
0.80	2	0	4	1	0.67	0.00	(0, 0.67)
0.60	2	1	3	1	0.67	0.25	(0.25, 0.67)
0.50	3	1	3	0	1.00	0.25	(0.25, 1.0)
0.40	3	2	2	0	1.00	0.50	(0.5, 1.0)
0.10	3	4	0	0	1.00	1.00	(1, 1)

Гини, свойства и ограничения

Связь AUC и Gini

AUC ROC

Площадь под кривой [0, 1]

x2 - 1

Линейное преобразование

Gini

Коэффициент Джини [-1, +1]

Связь Gini и AUC

Gini = 2 \cdot AUC_{ROC} - 1

Связь AUC и коэффициента Gini доказана теоретически и описана в Engelmann et al. (2003) — Measures of a Rating's Discriminative Power. Именно поэтому банковские риск-менеджеры свободно используют оба термина как синонимы.

Gini	Интерпретация
1.0	1.0	Идеальная модель
0.833	0.666	Наша модельная задача
0.79	0.58	Наш дискретный пример
0.5	0.0	Случайное угадывание
0.0	-1.0	Инвертированная модель

В банковском скоринге Gini используют чаще, чем AUC. Но это та же самая метрика, просто масштабированная.

Банковская практика, Credit Risk

Ключевые свойства AUC: инвариантна к монотонным преобразованиям score (важен только порядок), не зависит от баланса классов, не требует выбора порога. Это метрика ранжирования, а не классификации. Подробнее о свойствах — scikit-learn: ROC-метрики.

Когда AUC не подходит

Ситуация	Проблема	Что использовать вместо
Задача поиска / информационный поиск	AUC учитывает ВСЮ кривую, а в поиске важна только верхняя часть ранжирования (первые 10-100 результатов)	Precision@K, MAP, NDCG, AUC@K
Разная стоимость ошибок	FP и FN имеют одинаковый вес в AUC. В медицине пропустить рак (FN) дороже ложной тревоги (FP)	Weighted loss, Cost-sensitive metrics, PR AUC
Калибровка вероятностей	AUC не проверяет, что score = 0.7 действительно означает 70% вероятность	Brier score, Log loss, Calibration curve
Мультикласс (>2 класса)	ROC AUC определена для бинарной классификации. Для мультикласса нужны обобщения	Macro/Micro AUC, OvR AUC, OvO AUC
Выборка из одного класса	ROC-кривая не определена. Большинство реализаций выдадут ошибку	Нет — нужны объекты обоих классов

AUC на практике

В банковском скоринге AUC ROC (и её производная — Gini) является стандартом отрасли согласно руководствам EBA по кредитному риску. Но есть нюансы.

Когда я строю скоринговые модели, первое, что смотрю после обучения — AUC на отложенной выборке. Если AUC < 0.70, модель не идёт в production вне зависимости от других метрик. Это личное правило, выработанное после нескольких болезненных запусков.

Банк может выдать ограниченное число кредитов. Значит, главное требование — чтобы среди объектов с самыми низкими оценками риска были только «хорошие» заёмщики (класс 0 = вернёт кредит).

Скоринг в банке

Заявка

Клиент просит кредит

Модель

Score риска невозврата

Ранжирование

Сортировка по score

Отсечка

Топ-N получают кредит

Profit?

Только если AUC высокий

AUC показывает общее качество ранжирования. Но банку важна не вся кривая, а её нижняя левая часть — поведение модели на объектах с самыми низкими score. Поэтому в скоринге часто дополнительно смотрят на:

Зачем
Gini	Та же AUC, но в привычном банковском масштабе
KS-статистика	Максимальное расстояние между CDF классов
Lift@10%	Насколько топ-10% по score лучше случайного
AR (Accuracy Ratio)	= Gini (другое название)

Размер выборки важен: на 50 объектах AUC может гулять на +/-0.15. Минимум для production — 1000+ объектов (разброс +/-0.03). Для надёжной оценки нужно 5000+. Это подтверждает статистическая теория ROC-анализа.

AUC vs другие метрики

Детальное сравнение метрик с примерами кода — Precision-Recall vs ROC в scikit-learn. Правила выбора описаны в руководстве Machine Learning Mastery.

Метрика	Когда использовать	Плюсы	Минусы
AUC ROC	Общая оценка ранжирования	Инвариантна к балансу и порогу	Не учитывает стоимость ошибок
AUC PR	Сильный дисбаланс, важен recall	Чувствительна к FP при малом числе положительных	Зависит от баланса классов
Log Loss	Нужна калибровка вероятностей	Дифференцируемая, оптимизируемая	Чувствительна к выбросам
F1-score	Нужен конкретный порог	Баланс precision и recall	Зависит от порога
Accuracy	Баланс классов, равная стоимость ошибок	Простая и понятная	Бесполезна при дисбалансе

Итого

ГЛАВНОЕ

AUC ROC — золотой стандарт

Используется в банках, медицине, fraud detection, рекомендательных системах и на Kaggle. Если не знаете, какую метрику выбрать — берите AUC.

Смысл: качество ранжирования

AUC — это вероятность правильного упорядочивания случайной пары. Не классификация, а ранжирование. Это фундаментально другая задача.

Не панацея

AUC не подходит для задач поиска (используйте Precision@K), для калибровки (используйте Log Loss) и когда стоимость FP != стоимость FN.

Нужна большая выборка

На 100 объектах AUC будет гулять как пьяный матрос. Минимум 1000+, лучше 5000+ объектов для стабильной оценки.

Главный вывод: AUC ROC — это не просто «ещё одна метрика». Это фундаментальный способ оценить, насколько хорошо модель понимает разницу между классами. Если ваша модель не может ранжировать — она ничего не может. Я убеждался в этом снова и снова на production-моделях.

Автор, Data Scientist