Курс MIT 6.S191 «Введение в глубокое обучение» (Introduction to Deep Learning) открывает свои двери для студентов, предлагая глубокое погружение в технологию, которая за последние десять лет прошла путь от неработающих концептов до инструментов, которыми пользуется почти каждый. Ведущий лектор (предположительно Сара Бири, судя по контексту работы с экологами и слонами) вместе с ассистентом Джереми представляют обновленную программу 2024 года, акцентируя внимание на сочетании теоретической базы и практических навыков разработки.
🚀 Философия курса и прагматизм в обучении 0:12
Глубокое обучение сегодня касается почти всех сфер жизни: от генерации текста и кода до 3D-реконструкции (NeRF) и стратегических игр (AlphaGo) . По словам лектора, успех в этой области обеспечивается синергией теории и практики .
Курс ориентирован на продвинутый уровень (graduate-level) и предполагает наличие у слушателей базовых знаний об ИИ . Одной из ключевых особенностей программы является фокус на творческом подходе к ресурсам. Преподаватели сразу предупреждают: университет не может предоставить бесконечные вычислительные мощности .
«Вы не сможете переиграть OpenAI по количеству вычислительных ресурсов в своем проекте», — подчеркивает лектор, призывая студентов искать инновации не в масштабе данных, а в оригинальности подходов и архитектурных решениях .
Основные принципы оценки знаний:
- 65% — практические задания (p-sets): пять наборов задач, включая математические расчеты и написание кода .
- 35% — финальный проект: исследовательская работа, итогом которой должен стать пост в блоге .
- Формат блога: лектор отмечает, что сегодня в сообществе ML-исследователей умение наглядно и доступно описать свою работу в визуальном формате так же важно, как и сама техническая новизна .
⚖️ Этика и правила взаимодействия с ИИ 8:17
В курсе по глубокому обучению было бы странно запрещать использование ИИ-помощников вроде ChatGPT. Однако администрация курса вводит строгие этические рамки :
- Принцип «человеческого коллеги»: К ИИ-ассистенту нужно относиться как к сокурснику. Лектор утверждает, что нельзя просить модель решить задачу или написать код за вас, так как вы не стали бы просить об этом друга .
- Прозрачность: Если при выполнении задания использовался ИИ, студент обязан указать это, описав характер взаимодействия, точно так же, как указываются имена живых коллег по учебной группе .
- Индивидуальность: Общие обсуждения допустимы, но финальный код и решения должны быть результатом самостоятельного интеллектуального труда .
📜 Краткая история нейросетей: взлеты и падения 13:41
История области представлена как череда циклов энтузиазма и разочарования («зим ИИ»):
- 1958 год: Фрэнк Розенблатт представляет перцептрон. Огромные ожидания, попытка создать модель мозга для категоризации изображений .
- 1972 год: Минский и Паперт публикуют критическую работу «Перцептроны», математически доказывая ограничения однослойных сетей. Наступает спад интереса .
- 1986 год: Книга «Параллельная распределенная обработка» вводит концепцию обратного распространения ошибки (backpropagation). Это позволяет обучать многослойные сети и решать сложные задачи, такие как XOR .
- 1998 год: Ян Лекун разрабатывает сверточные нейросети (CNN), но академический мейнстрим все еще скептичен. В 2000 году слова «neural» и «network» в заголовках статей чаще вели к их отклонению на конференциях .
- 2012 год: Прорыв AlexNet. Алекс Крижевский объединяет теорию с мощностью GPU (изначально созданных для игр) и огромным массивом данных ImageNet .
Лектор задается вопросом: где мы будем в 2028 году? Будет ли это новый виток осцилляции или выход на плато, зависит от того, сможем ли мы преодолеть текущие ограничения мощностей и данных .
🧱 Фундаментальные строительные блоки 21:46
Сегодняшнее глубокое обучение базируется на нескольких «столпах»:
- Дифференцируемое программирование: возможность оптимизировать параметры программы с помощью градиентного спуска .
- Автоматическое дифференцирование (autograd): фреймворки вроде PyTorch и TensorFlow, реализующие цепное правило в софте .
- Pointwise Nonlinearities (Поточечные нелинейности): функции активации, без которых стек слоев превращается в простую линейную трансформацию .
Лектор подробно разбирает эволюцию функций активации:
- Step-function (ступенчатая): непригодна для обучения, так как градиент везде равен нулю .
- Sigmoid и Tanh: ранее популярны, но страдают от проблемы «затухания градиентов» при больших значениях .
- ReLU (Rectified Linear Unit): современный стандарт. Она проста в вычислении и ускоряет сходимость в 6 раз по сравнению с Tanh (по данным Крижевского) . Однако существует риск «отмирания» нейронов при попадании в отрицательную область .
📈 От перцептрона к глубоким моделям 39:23
Основная идея глубокого обучения — усложнение через наслоение. Даже двухслойный перцептрон способен выполнять нелинейную классификацию, комбинируя простые «наклонные плоскости» (рампы) в сложные геометрические формы .
Ключевые темы будущих лекций:
- Теория аппроксимации: доказано, что достаточно широкая двухслойная сеть может аппроксимировать любую функцию. Однако на практике глубокие и узкие сети гораздо эффективнее по параметрам .
- Парадокс генерализации: вопреки классической теории, согласно которой сверхпараметризованные модели должны переобучаться (overfit), современные нейросети демонстрируют феномен «двойного спуска» (double descent), находя простые закономерности в огромном пространстве параметров .
🐘 Будущее и масштабирование 58:42
В завершение лекции проводится аналогия с биологическими системами. Масштабирование — один из главных драйверов индустрии :
- Червь-нематода: 302 нейрона.
- Плодовая мушка: 15 000 нейронов.
- Человек: ~100 миллиардов нейронов.
- Слон: ~250 миллиардов нейронов .
Современные модели приближаются по числу параметров к сложным биологическим организмам, однако обучение GPT-4o стоит многие миллионы долларов и сопряжено с огромными углеродными выбросами [21:59, 22:38]. Лектор, сама работающая в сфере сохранения биоразнообразия, подчеркивает иронию ситуации: ИИ помогает изучать природу, но его обучение может вредить климату .