Основы обучения с учителем: линейная регрессия и нотация данных 0:01
Машинное обучение сегодня прочно вошло в нашу жизнь, и одной из наиболее широко используемых моделей является линейная регрессия. В рамках курса Machine Learning от DeepLearning.AI эксперты объясняют, как работает процесс обучения с учителем на примере прогнозирования цен на недвижимость.
Суть обучения с учителем и линейной регрессии 1:21
Обучение с учителем (supervised learning) подразумевает, что модель обучается на готовых наборах данных, где для каждого примера (входа) заранее известны правильные ответы (выходы). В качестве примера эксперты рассматривают данные о продаже домов в Портленде, где на графике горизонтальная ось представляет размер дома в квадратных футах, а вертикальная — цену в тысячах долларов.
- Линейная регрессия: Это процесс построения прямой линии, которая наилучшим образом проходит через данные. Используя такую модель, агент по недвижимости может оценить стоимость дома площадью 1250 квадратных футов, проведя линию тренда и определив пересечение с осью цен — примерно 220 000 долларов.
- Регрессия vs Классификация: Линейная регрессия относится к задачам регрессии, так как её результатом является число. В противовес этому, модели классификации предсказывают принадлежность к дискретным категориям, например, «кошка» или «собака», либо наличие заболевания у пациента.
Структура данных и визуализация 4:29
Помимо графиков, данные удобно представлять в виде таблицы. Каждая строка такой таблицы соответствует отдельному примеру (дому) и отображается как точка на графике.
- Например, в наборе данных из 47 примеров первая строка показывает дом площадью 2104 квадратных фута, проданный за 400 000 долларов.
- Этот набор данных, используемый для обучения модели, называется «обучающим набором» (training set).
Стандартная нотация в машинном обучении 5:49
Для эффективной коммуникации и понимания алгоритмов в индустрии используется общепринятая система обозначений:
- $x$: Входная переменная (также называемая «признаком» или «входным признаком»), обозначающая, например, размер дома.
- $y$: Выходная или целевая переменная, которую необходимо предсказать (в данном случае цена дома).
- $m$: Общее количество примеров в обучающем наборе (в рассматриваемом примере $m = 47$).
- $(x, y)$: Пара чисел, обозначающая отдельный обучающий пример.
- $x^{(i)}$ и $y^{(i)}$: Обозначения конкретного примера из обучающего набора, где индекс $i$ указывает на номер строки в таблице.
Важно понимать, что верхний индекс в скобках, например, $x^{(2)}$, не означает возведение в степень, а является индексом конкретного обучающего примера. Это стандартная терминология, которая будет встречаться на протяжении всей специализации.