Рама Рамакришнан: «Как глубокое обучение меняет мир»

MIT OpenCourseWare 256 тыс. 56 мин 3 мин 07.01.2026
Главное

Эволюция интеллекта: от жестких правил к нейронным сетям 0:16

Развитие искусственного интеллекта (ИИ) — это путь, который начался еще в 1956 году на семинаре в Дартмуте, где собрались такие пионеры индустрии, как Марвин Минский, Джон Маккарти и Клод Шеннон. Изначально ученые полагали, что ИИ будет «в значительной степени решен» за один сезон, однако реальность оказалась сложнее. За 67 лет своего существования поле прошло через три фундаментальных прорыва: традиционный подход, машинное обучение и глубокое обучение, к которому сегодня добавились генеративные модели.

Традиционный подход: «Слишком много правил» 1:22

Ранний ИИ строился на экспертных знаниях: разработчики садились с гроссмейстерами или кардиологами и пытались формализовать их опыт в виде жестких правил «если-то» (if-then). Однако этот подход не стал повсеместно успешным по двум причинам:

Если человек не может объяснить алгоритм своей работы, его невозможно запрограммировать стандартными методами.

Машинное обучение: ставка на статистику 4:29

Чтобы обойти «человеческий» барьер, разработчики перешли к машинному обучению (Machine Learning). Вместо написания правил, компьютеру предлагается огромное количество пар «вход-выход» (например, шахматные позиции и лучшие ходы), а статистические методы обучают модель находить закономерности.

Однако у метода есть узкое место: структурированность данных. Данные должны быть представлены в виде таблицы, где каждый признак — это число или категория. Когда мы сталкиваемся с картинкой, где каждый пиксель — лишь значение яркости (от 0 до 255), прямого смысла там нет. Для обработки таких данных исторически требовался ручной «feature engineering» — специалист должен был вручную измерять параметры, например, длину клюва или размах крыльев птицы, чтобы модель могла их понять.

Глубокое обучение: устранение «бутылочного горлышка» 10:27

Глубокое обучение (Deep Learning) стало революцией, так как оно позволяет модели автоматически извлекать нужные признаки из «сырых» данных. Система работает как конвейер: необработанная информация поступает на вход, проходит через слои нейронов, которые сами обучаются создавать нужные представления (representations), и на выходе выдает результат с помощью классической регрессии.

По словам Рамакришнана, этот метод держится на трех «китах»:

Благодаря этому ИИ теперь можно прикрепить к любому датчику. Камера, микрофон или сенсор автомобиля становятся источниками данных для глубокой аналитики. В качестве примера лектор приводит систему обнаружения рака груди, разработанную Региной Барзилай, которая успешно находит патологии там, где их пропустил врач.

Генеративный ИИ: переход к мультимодальности 17:19

Если раньше мы могли только потреблять данные, то с появлением генеративного ИИ мы научились их создавать. Современные модели (ChatGPT, AlphaGo) — это развитие того же глубокого обучения.

Главный тренд 2026 года — мультимодальность. Модели перестают быть «только текстовыми». Они могут принимать текст и изображение, выдавать текст и аудио, и комбинировать их в произвольной последовательности. Рамакришнан приводит пример: ИИ может «прочитать» сложную парковочную табличку в Сан-Франциско и ответить, можно ли там остановиться в конкретный час. Текстовые модели, по мнению автора, скоро станут «старомодным анахронизмом».

Как устроена нейронная сеть: Weights & Biases 24:44

Нейронная сеть — это, по сути, последовательность математических операций. Для классификации (например, примут ли кандидата на собеседование) мы берем GPA и опыт работы, умножаем их на коэффициенты, добавляем свободный член (интерцепт) и прогоняем через сигмоидную функцию, чтобы получить вероятность.

Секрет мощности нейросетей — в скрытых слоях (hidden layers). Между входом и выходом мы можем разместить любое количество слоев, где данные преобразуются через линейные функции и нелинейные активации.

Ключевые инструменты архитектуры:

💬 Цитаты

«Если вы понимаете глубокое обучение, для вас становятся возможными многие интересные вещи.»

Рама Рамакришнан 24:32

«Никаких долгосрочных монопольных окон в мире нет. Есть только краткосрочные окна.»

Рама Рамакришнан 16:51
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Парадокс Поланьи
Принцип, согласно которому люди знают больше, чем могут объяснить словами.
ReLU
Функция активации, которая оставляет положительные числа без изменений, а отрицательные превращает в ноль.
Мультимодальность
Способность ИИ-моделей одновременно обрабатывать и генерировать данные разных типов (текст, фото, аудио).
Dense Layer
Слой нейросети, в котором каждый нейрон связан с каждым нейроном следующего слоя.
📊 Цифры
🗓 Хронология
  1. 1956 Основание сферы ИИ в Дартмуте.
  2. 2026 Мультимодальные модели становятся стандартом индустрии.
⚖️ Другая сторона
Искусственный интеллект Deep Learning Neural Networks ReLU Multimodality