Рама Рамакришнан: «Как глубокое обучение меняет мир»

Эволюция интеллекта: от жестких правил к нейронным сетям 0:16

Развитие искусственного интеллекта (ИИ) — это путь, который начался еще в 1956 году на семинаре в Дартмуте, где собрались такие пионеры индустрии, как Марвин Минский, Джон Маккарти и Клод Шеннон. Изначально ученые полагали, что ИИ будет «в значительной степени решен» за один сезон, однако реальность оказалась сложнее. За 67 лет своего существования поле прошло через три фундаментальных прорыва: традиционный подход, машинное обучение и глубокое обучение, к которому сегодня добавились генеративные модели.

Традиционный подход: «Слишком много правил» 1:22

Ранний ИИ строился на экспертных знаниях: разработчики садились с гроссмейстерами или кардиологами и пытались формализовать их опыт в виде жестких правил «если-то» (if-then). Однако этот подход не стал повсеместно успешным по двум причинам:

Хрупкость систем: Правила плохо обобщаются на ситуации, которые не были предусмотрены разработчиками.
Парадокс Поланьи: Как отмечает Рама Рамакришнан, люди «знают больше, чем могут рассказать». Мы способны мгновенно распознать кота на фото, но не можем в точности артикулировать, как именно наш мозг это делает.

Если человек не может объяснить алгоритм своей работы, его невозможно запрограммировать стандартными методами.

Машинное обучение: ставка на статистику 4:29

Чтобы обойти «человеческий» барьер, разработчики перешли к машинному обучению (Machine Learning). Вместо написания правил, компьютеру предлагается огромное количество пар «вход-выход» (например, шахматные позиции и лучшие ходы), а статистические методы обучают модель находить закономерности.

Однако у метода есть узкое место: структурированность данных. Данные должны быть представлены в виде таблицы, где каждый признак — это число или категория. Когда мы сталкиваемся с картинкой, где каждый пиксель — лишь значение яркости (от 0 до 255), прямого смысла там нет. Для обработки таких данных исторически требовался ручной «feature engineering» — специалист должен был вручную измерять параметры, например, длину клюва или размах крыльев птицы, чтобы модель могла их понять.

Глубокое обучение: устранение «бутылочного горлышка» 10:27

Глубокое обучение (Deep Learning) стало революцией, так как оно позволяет модели автоматически извлекать нужные признаки из «сырых» данных. Система работает как конвейер: необработанная информация поступает на вход, проходит через слои нейронов, которые сами обучаются создавать нужные представления (representations), и на выходе выдает результат с помощью классической регрессии.

По словам Рамакришнана, этот метод держится на трех «китах»:

Новые алгоритмические идеи.
Огромные объемы данных.
Параллельные вычисления на графических процессорах (GPU).

Благодаря этому ИИ теперь можно прикрепить к любому датчику. Камера, микрофон или сенсор автомобиля становятся источниками данных для глубокой аналитики. В качестве примера лектор приводит систему обнаружения рака груди, разработанную Региной Барзилай, которая успешно находит патологии там, где их пропустил врач.

Генеративный ИИ: переход к мультимодальности 17:19

Если раньше мы могли только потреблять данные, то с появлением генеративного ИИ мы научились их создавать. Современные модели (ChatGPT, AlphaGo) — это развитие того же глубокого обучения.

Главный тренд 2026 года — мультимодальность. Модели перестают быть «только текстовыми». Они могут принимать текст и изображение, выдавать текст и аудио, и комбинировать их в произвольной последовательности. Рамакришнан приводит пример: ИИ может «прочитать» сложную парковочную табличку в Сан-Франциско и ответить, можно ли там остановиться в конкретный час. Текстовые модели, по мнению автора, скоро станут «старомодным анахронизмом».

Как устроена нейронная сеть: Weights & Biases 24:44

Нейронная сеть — это, по сути, последовательность математических операций. Для классификации (например, примут ли кандидата на собеседование) мы берем GPA и опыт работы, умножаем их на коэффициенты, добавляем свободный член (интерцепт) и прогоняем через сигмоидную функцию, чтобы получить вероятность.

Веса (Weights): новые названия старых коэффициентов.
Смещения (Biases): новое название для интерцептов.

Секрет мощности нейросетей — в скрытых слоях (hidden layers). Между входом и выходом мы можем разместить любое количество слоев, где данные преобразуются через линейные функции и нелинейные активации.

Ключевые инструменты архитектуры:

Нейрон: сочетание линейной функции и нелинейной активации.
Активационные функции: позволяют модели «выучивать» сложные зависимости. Если использовать только линейные функции, результат будет математически ограничен.
ReLU (Rectified Linear Unit): «герой» глубокого обучения, который превращает все отрицательные значения в ноль. Большинство экспертов считают ReLU ключевым фактором успеха современных сетей.