Хён Вон Чон: «Масштабирование — главный драйвер будущего ИИ»

Stanford Online 210 тыс. 36 мин 3 мин 11.06.2024
Главное

Будущее ИИ: как «горький урок» и масштабирование определяют архитектуру трансформеров 1:24

Современные темпы развития искусственного интеллекта настолько высоки, что исследователи зачастую не успевают отслеживать все новинки. Однако, по мнению Хён Вон Чона, исследователя из OpenAI, вместо погони за каждым новым агентом или модальностью, специалистам следует сосредоточиться на изучении самих механизмов изменений в этой области. Анализ истории архитектур и понимание доминирующих драйверов позволяют не только лучше ориентироваться в текущих событиях, но и прогнозировать будущие траектории развития ИИ.

📉 Доминирующая сила: закон экспоненциально дешевеющих вычислений 7:23

Фундаментальной движущей силой всей современной сферы ИИ является экспоненциальное снижение стоимости вычислительных мощностей. Согласно графику Рича Саттона, за последние 100 с лишним лет стоимость фиксированного объема вычислений падает экспоненциально: каждые пять лет производительность за те же деньги вырастает в 10 раз.

С точки зрения Хён Вон Чона, работа ИИ-исследователя заключается в обучении машин мышлению. Попытки моделировать то, как именно мы мыслим «на низком уровне», часто оказываются ошибочными, так как мы сами до конца не понимаем этих процессов.

Это приводит к «горькому уроку» (Bitter Lesson) в истории ИИ:

🤖 Эволюция архитектур: от Encoder-Decoder к Decoder-only 15:19

В истории трансформеров выделяют три основных типа архитектур, которые различаются степенью заложенной в них «структурности»:

  1. Encoder-Decoder (оригинальный трансформер) — наиболее структурированная архитектура, подходящая для перевода.
  2. Encoder-only (например, BERT) — архитектура, популяризированная в 2018 году для задач классификации и понимания языка.
  3. Decoder-only (например, GPT-3) — архитектура с наименьшим количеством встроенных ограничений, которую Хён Вон Чон считает наиболее перспективной.

Хотя визуально эти схемы кажутся разными, спикер утверждает, что при грамотном подходе они становятся практически идентичными. Различия сводятся к специфическим допущениям, которые в эпоху ранних исследований казались важными, но сегодня часто становятся избыточными или даже вредными.

🧩 Пересмотр «индуктивных смещений» 27:09

Анализ структуры модели показывает, что многие классические дизайнерские решения, такие как разделение параметров для входа и выхода или механизмы кросс-внимания, могут требовать переосмысления:

По мнению гостя, в условиях текущего парадигмального сдвига, исследователям необходимо постоянно задавать вопрос: «Являются ли эти допущения актуальными сегодня?». Если нет — их следует удалять, отдавая предпочтение более общим и масштабируемым методам.

💬 Цитаты

«Мы учим машину тому, как мы думаем, но мы сами не понимаем, как мы думаем на низком уровне.»

Хён Вон Чон 09:37

«То, что лучше в долгосрочной перспективе, почти неизбежно выглядит хуже прямо сейчас.»

Хён Вон Чон 13:40
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер
Тип архитектуры нейронных сетей, использующий механизм внимания для обработки последовательностей данных.
Inductive bias (индуктивное смещение)
Набор предположений, которые модель делает для облегчения обучения, накладывая структурные ограничения.
Bitter Lesson (горький урок)
Концепция, согласно которой общие методы, использующие масштаб данных и вычислений, всегда побеждают методы, основанные на сложных человеческих экспертных знаниях.
Cross-attention
Механизм, позволяющий декодеру «смотреть» на представления данных, полученные энкодером.
📊 Цифры
🗓 Хронология
  1. 2017 Представление оригинальной архитектуры трансформера.
  2. 2018 Выход модели BERT, популяризация Encoder-only архитектур.
  3. 2024 (примерно) Период работы спикера над проектами Flan и PaLM.
⚖️ Другая сторона
Искусственный интеллект OpenAI Transformer LLM scaling laws