# Баланс между смещением и дисперсией: как найти идеальную модель машинного обучения

Источник: https://www.youtube.com/watch?v=8upNQi-40Q8
Канал: DeepLearning.AI
Опубликовано: 01.12.2022

---

В обучении моделей машинного обучения существует тонкая грань между недостаточной точностью и избыточной сложностью. В рамках курса Machine Learning Specialization основатель DeepLearning.AI Эндрю Ын (Andrew Ng) подробно разбирает два фундаментальных препятствия — недообучение (underfitting) и переобучение (overfitting). Понимание этих концепций критически важно для создания алгоритмов, способных давать адекватные прогнозы на реальных данных, а не просто «зазубривать» примеры из тренировочного набора.

## 📉 Проблема недообучения и феномен высокого смещения
[[JUMP:01:09]]

На примере задачи прогнозирования цен на жилье в зависимости от площади дома Эндрю Ын демонстрирует, что происходит, когда выбранная модель слишком проста для имеющихся данных [01:22]. Если попытаться аппроксимировать нелинейную зависимость (где цены обычно «выравниваются» при росте площади) обычной прямой линией, алгоритм не сможет уловить структуру данных [01:48].

Этот феномен в машинном обучении называется **недообучением (underfitting)**. Эндрю Ын выделяет следующие ключевые характеристики этого состояния:

*   **Высокое смещение (High Bias):** Модель имеет сильное «предубеждение», что данные линейны, вопреки очевидным доказательствам обратного [03:06].
*   **Плохая работа на тренировочных данных:** Алгоритм не справляется даже с теми примерами, на которых учится [02:01].
*   **Упрощение реальности:** Модель игнорирует явные паттерны, присутствующие в наборе данных [02:53].

Автор подчеркивает, что термин «bias» (смещение/предубеждение) в техническом смысле отличается от социального контекста (дискриминация по полу или этнической принадлежности), хотя проверка алгоритмов на этические предубеждения также является критически важной задачей разработчика [02:14].

## 🎯 Идеальный баланс и концепция обобщения
[[JUMP:03:34]]

В качестве альтернативы Ын предлагает использовать квадратичную функцию. В этом случае модель описывается кривой, которая гораздо лучше соответствует распределению точек [03:50]. Такой подход позволяет достичь того, что в индустрии называют **хорошим обобщением (generalization)**.

Основные аспекты успешного обобщения по мнению автора:

1.  **Прогноз на новых данных:** Способность модели делать точные предсказания для примеров, которые она никогда раньше не видела (например, для дома, которого не было в обучающей выборке) [04:18].
2.  **Умеренная сложность:** Модель достаточно сложна, чтобы уловить тренд, но не настолько, чтобы реагировать на случайный шум [04:31].
3.  **Статус «Just Right»:** Эндрю Ын называет такие модели «в самый раз», проводя аналогию со сказкой о Златовласке (Goldilocks) и трех медведях, где героиня искала кашу идеальной температуры [07:52].

## 🎢 Переобучение: когда точность становится врагом
[[JUMP:04:43]]

На другом полюсе находится **переобучение (overfitting)**. Это происходит, когда мы используем слишком сложную модель, например, полином четвертого порядка для пяти точек данных [04:56]. В этом случае кривая может пройти идеально через каждую точку, в результате чего функция стоимости (cost function) станет равной нулю [05:10].

Однако такая модель, по словам Ына, обладает «высокой дисперсией» (High Variance) и имеет ряд критических недостатков:

*   **Чрезмерная изменчивость:** Если изменить тренировочные данные хотя бы на одну точку, вид кривой может измениться радикально [06:30].
*   **Алогичные предсказания:** Кривая может совершать резкие скачки вверх и вниз. Например, модель может предсказать, что огромный особняк стоит дешевле маленького дома из-за причудливой формы функции [05:24].
*   **Отсутствие обобщения:** Модель «заучивает» шум и специфические особенности тренировочного набора, становясь бесполезной для реального применения [06:04].

## 🛡️ Переобучение в задачах классификации
[[JUMP:08:53]]

Проблемы смещения и дисперсии актуальны не только для регрессии, но и для классификации (например, при использовании логистической регрессии для диагностики опухолей) [08:58].

Эндрю Ын сравнивает три типа разделяющих границ:

1.  **Линейная граница (Недообучение):** Простая прямая линия, которая лишь приблизительно разделяет злокачественные и доброкачественные опухоли, допуская много ошибок [09:40].
2.  **Эллиптическая граница (Оптимально):** Квадратичная функция, которая хорошо разделяет классы, допуская лишь незначительные ошибки на пересекающихся данных. Ын утверждает, что такая модель будет лучше всего работать с новыми пациентами [10:08].
3.  **Сложная ломаная граница (Переобучение):** Если использовать полиномы очень высокой степени, алгоритм будет «извиваться», чтобы идеально обойти каждую точку в обучающей выборке [10:46]. Такая граница выглядит крайне неестественно и, скорее всего, не отражает реальную медицинскую логику [11:12].

## 🛠️ Как бороться с дисперсией?
[[JUMP:11:25]]

В завершение лекции Эндрю Ын резюмирует, что главная цель инженера — найти «золотую середину» между слишком простыми и слишком сложными моделями. В качестве одного из самых эффективных инструментов для борьбы с переобучением он называет **регуляризацию (regularization)** [00:35]. Этот метод позволяет минимизировать риск высокой дисперсии и заставляет алгоритмы работать стабильнее, что будет темой следующих занятий курса [11:37].