# MIT: «Вы не сможете переиграть OpenAI мощностью железа, будьте креативными»

Источник: https://www.youtube.com/watch?v=6FkRvTtUc-o
Канал: MIT OpenCourseWare
Опубликовано: 11.02.2026

---

Курс MIT 6.S191 «Введение в глубокое обучение» (Introduction to Deep Learning) открывает свои двери для студентов, предлагая глубокое погружение в технологию, которая за последние десять лет прошла путь от неработающих концептов до инструментов, которыми пользуется почти каждый. Ведущий лектор (предположительно Сара Бири, судя по контексту работы с экологами и слонами) вместе с ассистентом Джереми представляют обновленную программу 2024 года, акцентируя внимание на сочетании теоретической базы и практических навыков разработки.

## 🚀 Философия курса и прагматизм в обучении
[[JUMP:0:12]]

Глубокое обучение сегодня касается почти всех сфер жизни: от генерации текста и кода до 3D-реконструкции (NeRF) и стратегических игр (AlphaGo) [0:52]. По словам лектора, успех в этой области обеспечивается синергией теории и практики [2:12]. 

Курс ориентирован на продвинутый уровень (graduate-level) и предполагает наличие у слушателей базовых знаний об ИИ [6:05]. Одной из ключевых особенностей программы является фокус на творческом подходе к ресурсам. Преподаватели сразу предупреждают: университет не может предоставить бесконечные вычислительные мощности [4:34].

«Вы не сможете переиграть OpenAI по количеству вычислительных ресурсов в своем проекте», — подчеркивает лектор, призывая студентов искать инновации не в масштабе данных, а в оригинальности подходов и архитектурных решениях [4:46].

Основные принципы оценки знаний:

*   **65% — практические задания (p-sets):** пять наборов задач, включая математические расчеты и написание кода [2:51].
*   **35% — финальный проект:** исследовательская работа, итогом которой должен стать пост в блоге [3:04]. 
*   **Формат блога:** лектор отмечает, что сегодня в сообществе ML-исследователей умение наглядно и доступно описать свою работу в визуальном формате так же важно, как и сама техническая новизна [3:44].

## ⚖️ Этика и правила взаимодействия с ИИ
[[JUMP:8:17]]

В курсе по глубокому обучению было бы странно запрещать использование ИИ-помощников вроде ChatGPT. Однако администрация курса вводит строгие этические рамки [10:04]:

1.  **Принцип «человеческого коллеги»:** К ИИ-ассистенту нужно относиться как к сокурснику. Лектор утверждает, что нельзя просить модель решить задачу или написать код за вас, так как вы не стали бы просить об этом друга [10:30].
2.  **Прозрачность:** Если при выполнении задания использовался ИИ, студент обязан указать это, описав характер взаимодействия, точно так же, как указываются имена живых коллег по учебной группе [11:23].
3.  **Индивидуальность:** Общие обсуждения допустимы, но финальный код и решения должны быть результатом самостоятельного интеллектуального труда [8:31].

## 📜 Краткая история нейросетей: взлеты и падения
[[JUMP:13:41]]

История области представлена как череда циклов энтузиазма и разочарования («зим ИИ»):

*   **1958 год:** Фрэнк Розенблатт представляет **перцептрон**. Огромные ожидания, попытка создать модель мозга для категоризации изображений [14:04].
*   **1972 год:** Минский и Паперт публикуют критическую работу «Перцептроны», математически доказывая ограничения однослойных сетей. Наступает спад интереса [15:09].
*   **1986 год:** Книга «Параллельная распределенная обработка» вводит концепцию **обратного распространения ошибки (backpropagation)**. Это позволяет обучать многослойные сети и решать сложные задачи, такие как XOR [15:49].
*   **1998 год:** Ян Лекун разрабатывает сверточные нейросети (CNN), но академический мейнстрим все еще скептичен. В 2000 году слова «neural» и «network» в заголовках статей чаще вели к их отклонению на конференциях [16:54].
*   **2012 год:** Прорыв **AlexNet**. Алекс Крижевский объединяет теорию с мощностью GPU (изначально созданных для игр) и огромным массивом данных ImageNet [18:14].

Лектор задается вопросом: где мы будем в 2028 году? Будет ли это новый виток осцилляции или выход на плато, зависит от того, сможем ли мы преодолеть текущие ограничения мощностей и данных [20:29].

## 🧱 Фундаментальные строительные блоки
[[JUMP:21:46]]

Сегодняшнее глубокое обучение базируется на нескольких «столпах»:

*   **Дифференцируемое программирование:** возможность оптимизировать параметры программы с помощью градиентного спуска [1:44].
*   **Автоматическое дифференцирование (autograd):** фреймворки вроде PyTorch и TensorFlow, реализующие цепное правило в софте [20:56].
*   **Pointwise Nonlinearities (Поточечные нелинейности):** функции активации, без которых стек слоев превращается в простую линейную трансформацию [28:10].

Лектор подробно разбирает эволюцию функций активации:

1.  **Step-function (ступенчатая):** непригодна для обучения, так как градиент везде равен нулю [29:15].
2.  **Sigmoid и Tanh:** ранее популярны, но страдают от проблемы «затухания градиентов» при больших значениях [33:38].
3.  **ReLU (Rectified Linear Unit):** современный стандарт. Она проста в вычислении и ускоряет сходимость в 6 раз по сравнению с Tanh (по данным Крижевского) [34:17]. Однако существует риск «отмирания» нейронов при попадании в отрицательную область [34:45].

## 📈 От перцептрона к глубоким моделям
[[JUMP:39:23]]

Основная идея глубокого обучения — усложнение через наслоение. Даже двухслойный перцептрон способен выполнять нелинейную классификацию, комбинируя простые «наклонные плоскости» (рампы) в сложные геометрические формы [40:14].

Ключевые темы будущих лекций:

*   **Теория аппроксимации:** доказано, что достаточно широкая двухслойная сеть может аппроксимировать любую функцию. Однако на практике **глубокие и узкие** сети гораздо эффективнее по параметрам [41:57].
*   **Парадокс генерализации:** вопреки классической теории, согласно которой сверхпараметризованные модели должны переобучаться (overfit), современные нейросети демонстрируют феномен «двойного спуска» (double descent), находя простые закономерности в огромном пространстве параметров [45:06].

## 🐘 Будущее и масштабирование
[[JUMP:58:42]]

В завершение лекции проводится аналогия с биологическими системами. Масштабирование — один из главных драйверов индустрии [59:22]:

*   Червь-нематода: 302 нейрона.
*   Плодовая мушка: 15 000 нейронов.
*   Человек: ~100 миллиардов нейронов.
*   Слон: ~250 миллиардов нейронов [59:09].

Современные модели приближаются по числу параметров к сложным биологическим организмам, однако обучение GPT-4o стоит многие миллионы долларов и сопряжено с огромными углеродными выбросами [21:59, 22:38]. Лектор, сама работающая в сфере сохранения биоразнообразия, подчеркивает иронию ситуации: ИИ помогает изучать природу, но его обучение может вредить климату [22:51].