Stanford CS221: основы и методы линейной классификации

Stanford Online 1,7 тыс. 1 ч 12 мин 2 мин 09.03.2026
Главное

📚 Основы линейной классификации: от теории к практике 0:06

В третьей лекции курса Stanford CS221 (осень 2025 года) эксперты Stanford Online подробно разобрали переход от линейной регрессии к линейной классификации. Основная проблема классификации заключается в том, что задача прогнозирования меняется: вместо предсказания вещественного числа модель теперь должна делать дискретный выбор из $K$ возможных классов.

🎯 Концепция классификации и проблема принятия решений 1:17

В классификации, будь то определение объекта на изображении или анализ тональности текста, итогом является одна из $K$ категорий. В случае бинарной классификации ($K=2$) принято кодировать выходные значения как $-1$ (негативный класс) и $+1$ (позитивный класс).

Как отмечают лекторы, создание таких классификаторов «вручную» не является задачей машинного обучения. Цель — научить алгоритм находить оптимальную границу на основе обучающих данных.

📉 Почему стандартные подходы не работают 12:47

Первым логичным шагом кажется использование квадратичной функции потерь (как в регрессии), но она плохо подходит для классификации.

🧠 Логистическая функция и вероятности 31:23

Чтобы сделать модель обучаемой, необходимо «сгладить» дискретные решения (if-else) и перейти к непрерывным функциям. Решением становится использование логистической функции (sigmoid), которая преобразует любой логит в вероятность.

🌐 Мультиклассовая классификация и текст 53:25

Когда классов больше двух, применяются расширенные инструменты:

  1. Softmax: Обобщение логистической функции для вектора логитов, которое обеспечивает суммирование вероятностей всех классов в единицу.
  2. Cross-Entropy: Мера различия между целевым распределением (часто представленным как one-hot вектор) и предсказанным.

Отдельно лекторы затронули тему преобразования текста в тензоры. Для обучения моделей слова сначала токенизируются (превращаются в индексы), а затем кодируются в разреженные векторы. Метод «мешка слов» (bag of words) позволяет получить фиксированный размер вектора независимо от длины текста, хотя он и игнорирует порядок слов.

💬 Цитаты

«Вероятности не могут быть отрицательными. Что самое простое, чтобы сделать их положительными? Экспонировать.»

Лектор Stanford Online 57:53

«Если вы оптимист, вы говорите «максимизировать правдоподобие». Если пессимист — «минимизировать потери».»

Лектор Stanford Online 42:09
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Логит
Сырое числовое значение на выходе линейного классификатора до применения функции активации.
Softmax
Функция, преобразующая вектор произвольных чисел в распределение вероятностей.
One-hot кодирование
Представление категориальных данных в виде вектора, где только один элемент равен 1, а остальные — 0.
Решающая граница
Поверхность, разделяющая пространство признаков на области, соответствующие разным классам.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Linear Classification Logistic Regression Softmax Cross-Entropy Gradient Descent