Будущее ИИ: как «горький урок» и масштабирование определяют архитектуру трансформеров 1:24
Современные темпы развития искусственного интеллекта настолько высоки, что исследователи зачастую не успевают отслеживать все новинки. Однако, по мнению Хён Вон Чона, исследователя из OpenAI, вместо погони за каждым новым агентом или модальностью, специалистам следует сосредоточиться на изучении самих механизмов изменений в этой области. Анализ истории архитектур и понимание доминирующих драйверов позволяют не только лучше ориентироваться в текущих событиях, но и прогнозировать будущие траектории развития ИИ.
📉 Доминирующая сила: закон экспоненциально дешевеющих вычислений 7:23
Фундаментальной движущей силой всей современной сферы ИИ является экспоненциальное снижение стоимости вычислительных мощностей. Согласно графику Рича Саттона, за последние 100 с лишним лет стоимость фиксированного объема вычислений падает экспоненциально: каждые пять лет производительность за те же деньги вырастает в 10 раз.
С точки зрения Хён Вон Чона, работа ИИ-исследователя заключается в обучении машин мышлению. Попытки моделировать то, как именно мы мыслим «на низком уровне», часто оказываются ошибочными, так как мы сами до конца не понимаем этих процессов.
Это приводит к «горькому уроку» (Bitter Lesson) в истории ИИ:
- За последние 70 лет прогресс в ИИ достигается не за счет «модных» методов, а за счет развития более общих алгоритмов с минимальными допущениями (inductive biases) и их последующего масштабирования с помощью больших объемов данных и вычислительных мощностей.
- Добавление сложной структуры — это «короткий путь», который может дать результат в краткосрочной перспективе, но в долгосрочной становится «узким местом», ограничивающим дальнейшее масштабирование.
🤖 Эволюция архитектур: от Encoder-Decoder к Decoder-only 15:19
В истории трансформеров выделяют три основных типа архитектур, которые различаются степенью заложенной в них «структурности»:
- Encoder-Decoder (оригинальный трансформер) — наиболее структурированная архитектура, подходящая для перевода.
- Encoder-only (например, BERT) — архитектура, популяризированная в 2018 году для задач классификации и понимания языка.
- Decoder-only (например, GPT-3) — архитектура с наименьшим количеством встроенных ограничений, которую Хён Вон Чон считает наиболее перспективной.
Хотя визуально эти схемы кажутся разными, спикер утверждает, что при грамотном подходе они становятся практически идентичными. Различия сводятся к специфическим допущениям, которые в эпоху ранних исследований казались важными, но сегодня часто становятся избыточными или даже вредными.
🧩 Пересмотр «индуктивных смещений» 27:09
Анализ структуры модели показывает, что многие классические дизайнерские решения, такие как разделение параметров для входа и выхода или механизмы кросс-внимания, могут требовать переосмысления:
- Разделение параметров (Separate parameters): В ранних моделях для перевода было логично использовать разные параметры для разных языков. Однако современные большие языковые модели (LLM) направлены на накопление знаний, а не только на перевод, поэтому разделение параметров кажется искусственным ограничением.
- Иерархическое внимание (Cross-attention): В архитектуре Encoder-Decoder слои декодера обращаются к финальному выходу энкодера. В условиях масштабирования до тысяч слоев это может стать своего рода «информационным бутылочным горлышком», что делает этот дизайн спорным.
- Двунаправленность (Bi-directional attention): Хотя двунаправленность была полезна в 2018 году (например, для бенчмарка SQuAD), она создает инженерные трудности для современных чат-приложений. Модели с однонаправленным вниманием позволяют кэшировать предыдущие вычисления при многоходовых диалогах, что дает значительный выигрыш в эффективности.
По мнению гостя, в условиях текущего парадигмального сдвига, исследователям необходимо постоянно задавать вопрос: «Являются ли эти допущения актуальными сегодня?». Если нет — их следует удалять, отдавая предпочтение более общим и масштабируемым методам.