# #9 Machine Learning Specialization [Course 1, Week 1, Lesson 3]

Источник: https://www.youtube.com/watch?v=dLc-lfEEYss
Канал: DeepLearning.AI
Опубликовано: 01.12.2022

---

## Основы обучения с учителем: линейная регрессия и нотация данных
[[JUMP:00:01]]

Машинное обучение сегодня прочно вошло в нашу жизнь, и одной из наиболее широко используемых моделей является линейная регрессия. В рамках курса Machine Learning от DeepLearning.AI эксперты объясняют, как работает процесс обучения с учителем на примере прогнозирования цен на недвижимость.

### Суть обучения с учителем и линейной регрессии
[[JUMP:01:21]]

Обучение с учителем (supervised learning) подразумевает, что модель обучается на готовых наборах данных, где для каждого примера (входа) заранее известны правильные ответы (выходы). В качестве примера эксперты рассматривают данные о продаже домов в Портленде, где на графике горизонтальная ось представляет размер дома в квадратных футах, а вертикальная — цену в тысячах долларов.

* **Линейная регрессия:** Это процесс построения прямой линии, которая наилучшим образом проходит через данные. Используя такую модель, агент по недвижимости может оценить стоимость дома площадью 1250 квадратных футов, проведя линию тренда и определив пересечение с осью цен — примерно 220 000 долларов.
* **Регрессия vs Классификация:** Линейная регрессия относится к задачам регрессии, так как её результатом является число. В противовес этому, модели классификации предсказывают принадлежность к дискретным категориям, например, «кошка» или «собака», либо наличие заболевания у пациента.

### Структура данных и визуализация
[[JUMP:04:29]]

Помимо графиков, данные удобно представлять в виде таблицы. Каждая строка такой таблицы соответствует отдельному примеру (дому) и отображается как точка на графике.

* Например, в наборе данных из 47 примеров первая строка показывает дом площадью 2104 квадратных фута, проданный за 400 000 долларов.
* Этот набор данных, используемый для обучения модели, называется «обучающим набором» (training set).

### Стандартная нотация в машинном обучении
[[JUMP:05:49]]

Для эффективной коммуникации и понимания алгоритмов в индустрии используется общепринятая система обозначений:

1.  **$x$:** Входная переменная (также называемая «признаком» или «входным признаком»), обозначающая, например, размер дома.
2.  **$y$:** Выходная или целевая переменная, которую необходимо предсказать (в данном случае цена дома).
3.  **$m$:** Общее количество примеров в обучающем наборе (в рассматриваемом примере $m = 47$).
4.  **$(x, y)$:** Пара чисел, обозначающая отдельный обучающий пример.
5.  **$x^{(i)}$ и $y^{(i)}$:** Обозначения конкретного примера из обучающего набора, где индекс $i$ указывает на номер строки в таблице.

Важно понимать, что верхний индекс в скобках, например, $x^{(2)}$, не означает возведение в степень, а является индексом конкретного обучающего примера. Это стандартная терминология, которая будет встречаться на протяжении всей специализации.