Введение
Степени свободы (Degrees of Freedom, df) – фундаментальный статистический параметр, определяющий количество независимых данных, «свободных» для вариации при оценке параметров модели. Концепция была формализована Рональдом Фишером в 1920-х годах и с тех пор стала неотъемлемым элементом любого статистического анализа: от t-критерия Стьюдента до нейросетевых архитектур, где она связана с ёмкостью модели.
История и контекст
Сам термин ввёл в оборот Рональд Фишер, разрабатывая методы дисперсионного анализа (ANOVA). Карл Пирсон ранее ошибался в расчётах chi-square теста, не учитывая потерю одной степени свободы на оценку среднего. Фишер исправил эту ошибку в 1922 году, заложив основу современной статистики. Сегодня df используется в прикладном анализе данных, BI-инструментах, ML-фреймворках и научных вычислениях.
Как это работает
Интуиция: если у вас есть выборка из n наблюдений и вы оценили выборочное среднее, то из n наблюдений уже только n−1 могут «свободно» меняться – последнее значение полностью определено остальными и средним. Отсюда df = n − 1 для выборочной дисперсии.
- t-критерий (одновыборочный): df = n − 1.
- t-критерий (двухвыборочный): df = n₁ + n₂ − 2 (при равных дисперсиях).
- Хи-квадрат тест: df = (r − 1)(c − 1), где r – строки, c – столбцы таблицы сопряжённости.
- Линейная регрессия: df для остатков = n − k − 1, где k – число предикторов.
- ANOVA: df между группами = K − 1; df внутри групп = N − K.
В нейронных сетях термин используется в более широком смысле: число свободных параметров модели (весов) определяет её «ёмкость» и склонность к переобучению.
Где применяется
- A/B-тестирование – определение статистической значимости различий между группами с помощью t-тестов.
- Machine Learning – ANOVA для оценки значимости признаков; чи-квадрат для категориальных переменных.
- BI и отчётность – инструменты типа Power BI, Tableau и OWOX BI автоматически рассчитывают df при построении статистических моделей.
- Биомедицина и фармация – клинические испытания используют df для выбора критериев при малых выборках.
- Финансовый анализ – оценка регрессионных моделей волатильности и риска.
Преимущества и ограничения
Правильный учёт df обеспечивает несмещённые оценки дисперсии и верные p-value. Игнорирование df (например, деление на n вместо n−1) даёт смещённые оценки, что в медицинских или финансовых расчётах может иметь серьёзные последствия. Ограничение: при малых df (n < 30) t-распределение существенно отличается от нормального, и использование z-критерия некорректно.
Связь с другими понятиями
Степени свободы неразрывно связаны с описательной аналитикой (descriptive analytics), диагностической аналитикой (diagnostic analytics) и методами машинного обучения. В контексте регрессионных моделей df напрямую влияет на adjusted R² – метрику качества модели, учитывающую число предикторов.