MIT: «Вы не сможете переиграть OpenAI мощностью железа, будьте креативными»

Курс MIT 6.S191 «Введение в глубокое обучение» (Introduction to Deep Learning) открывает свои двери для студентов, предлагая глубокое погружение в технологию, которая за последние десять лет прошла путь от неработающих концептов до инструментов, которыми пользуется почти каждый. Ведущий лектор (предположительно Сара Бири, судя по контексту работы с экологами и слонами) вместе с ассистентом Джереми представляют обновленную программу 2024 года, акцентируя внимание на сочетании теоретической базы и практических навыков разработки.

🚀 Философия курса и прагматизм в обучении 0:12

Глубокое обучение сегодня касается почти всех сфер жизни: от генерации текста и кода до 3D-реконструкции (NeRF) и стратегических игр (AlphaGo) . По словам лектора, успех в этой области обеспечивается синергией теории и практики .

Курс ориентирован на продвинутый уровень (graduate-level) и предполагает наличие у слушателей базовых знаний об ИИ . Одной из ключевых особенностей программы является фокус на творческом подходе к ресурсам. Преподаватели сразу предупреждают: университет не может предоставить бесконечные вычислительные мощности .

«Вы не сможете переиграть OpenAI по количеству вычислительных ресурсов в своем проекте», — подчеркивает лектор, призывая студентов искать инновации не в масштабе данных, а в оригинальности подходов и архитектурных решениях .

Основные принципы оценки знаний:

65% — практические задания (p-sets): пять наборов задач, включая математические расчеты и написание кода .
35% — финальный проект: исследовательская работа, итогом которой должен стать пост в блоге .
Формат блога: лектор отмечает, что сегодня в сообществе ML-исследователей умение наглядно и доступно описать свою работу в визуальном формате так же важно, как и сама техническая новизна .

⚖️ Этика и правила взаимодействия с ИИ 8:17

В курсе по глубокому обучению было бы странно запрещать использование ИИ-помощников вроде ChatGPT. Однако администрация курса вводит строгие этические рамки :

Принцип «человеческого коллеги»: К ИИ-ассистенту нужно относиться как к сокурснику. Лектор утверждает, что нельзя просить модель решить задачу или написать код за вас, так как вы не стали бы просить об этом друга .
Прозрачность: Если при выполнении задания использовался ИИ, студент обязан указать это, описав характер взаимодействия, точно так же, как указываются имена живых коллег по учебной группе .
Индивидуальность: Общие обсуждения допустимы, но финальный код и решения должны быть результатом самостоятельного интеллектуального труда .

📜 Краткая история нейросетей: взлеты и падения 13:41

История области представлена как череда циклов энтузиазма и разочарования («зим ИИ»):

1958 год: Фрэнк Розенблатт представляет перцептрон. Огромные ожидания, попытка создать модель мозга для категоризации изображений .
1972 год: Минский и Паперт публикуют критическую работу «Перцептроны», математически доказывая ограничения однослойных сетей. Наступает спад интереса .
1986 год: Книга «Параллельная распределенная обработка» вводит концепцию обратного распространения ошибки (backpropagation). Это позволяет обучать многослойные сети и решать сложные задачи, такие как XOR .
1998 год: Ян Лекун разрабатывает сверточные нейросети (CNN), но академический мейнстрим все еще скептичен. В 2000 году слова «neural» и «network» в заголовках статей чаще вели к их отклонению на конференциях .
2012 год: Прорыв AlexNet. Алекс Крижевский объединяет теорию с мощностью GPU (изначально созданных для игр) и огромным массивом данных ImageNet .

Лектор задается вопросом: где мы будем в 2028 году? Будет ли это новый виток осцилляции или выход на плато, зависит от того, сможем ли мы преодолеть текущие ограничения мощностей и данных .

🧱 Фундаментальные строительные блоки 21:46

Сегодняшнее глубокое обучение базируется на нескольких «столпах»:

Дифференцируемое программирование: возможность оптимизировать параметры программы с помощью градиентного спуска .
Автоматическое дифференцирование (autograd): фреймворки вроде PyTorch и TensorFlow, реализующие цепное правило в софте .
Pointwise Nonlinearities (Поточечные нелинейности): функции активации, без которых стек слоев превращается в простую линейную трансформацию .

Лектор подробно разбирает эволюцию функций активации:

Step-function (ступенчатая): непригодна для обучения, так как градиент везде равен нулю .
Sigmoid и Tanh: ранее популярны, но страдают от проблемы «затухания градиентов» при больших значениях .
ReLU (Rectified Linear Unit): современный стандарт. Она проста в вычислении и ускоряет сходимость в 6 раз по сравнению с Tanh (по данным Крижевского) . Однако существует риск «отмирания» нейронов при попадании в отрицательную область .

📈 От перцептрона к глубоким моделям 39:23

Основная идея глубокого обучения — усложнение через наслоение. Даже двухслойный перцептрон способен выполнять нелинейную классификацию, комбинируя простые «наклонные плоскости» (рампы) в сложные геометрические формы .

Ключевые темы будущих лекций:

Теория аппроксимации: доказано, что достаточно широкая двухслойная сеть может аппроксимировать любую функцию. Однако на практике глубокие и узкие сети гораздо эффективнее по параметрам .
Парадокс генерализации: вопреки классической теории, согласно которой сверхпараметризованные модели должны переобучаться (overfit), современные нейросети демонстрируют феномен «двойного спуска» (double descent), находя простые закономерности в огромном пространстве параметров .

🐘 Будущее и масштабирование 58:42

В завершение лекции проводится аналогия с биологическими системами. Масштабирование — один из главных драйверов индустрии :

Червь-нематода: 302 нейрона.
Плодовая мушка: 15 000 нейронов.
Человек: ~100 миллиардов нейронов.
Слон: ~250 миллиардов нейронов .

Современные модели приближаются по числу параметров к сложным биологическим организмам, однако обучение GPT-4o стоит многие миллионы долларов и сопряжено с огромными углеродными выбросами [21:59, 22:38]. Лектор, сама работающая в сфере сохранения биоразнообразия, подчеркивает иронию ситуации: ИИ помогает изучать природу, но его обучение может вредить климату .