Питер Аббиль: «Языковые модели не так уж специализированы для языка»

В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Чаррингтон и его гость, известный исследователь в области искусственного интеллекта Питер Аббиль, обсудили революционную научную работу, посвященную скрытому потенциала языковых моделей. Ученые обнаружили, что предобученные трансформеры могут выступать в роли универсальных вычислительных движков, способных решать задачи далеко за пределами языковой сферы. Результаты экспериментов показывают, что алгоритмы прогнозирования следующего токена формируют механизмы абстрактного мышления, применимые в биологии, математике и компьютерном зрении.

🧠 Неожиданное открытие: трансформеры как универсальные вычислители 0:00

Исследование началось с публикации препринта научной работы «Pre-trained Transformers as Universal Computation Engines» на платформе arXiv. Как признается Питер Аббиль, этот проект стал одним из самых удивительных в его практике. В типичном научном процессе исследователи руководствуются понятной интуицией: они заранее знают, как заложить определенную логику в алгоритм, чтобы улучшить результаты. Однако в данном случае ученые не создавали новый алгоритм, а провели глубокое фундаментальное исследование уже существующих моделей.

В центре внимания оказались популярные сегодня большие языковые модели на базе архитектуры трансформеров. Общеизвестно, что обучение нейросети на огромных массивах текста предсказанию следующего токена позволяет ей эффективно справляться с самыми разными языковыми задачами. Компании вроде OpenAI, Google и Facebook уже доказали это на практике. Однако авторы исследования задались более фундаментальным вопросом: не заложено ли в процессе предсказания слов нечто большее, чем просто знание языка? По мнению Аббиля, в процессе работы с интернет-текстами нейросеть могла интернализировать универсальные механизмы логического мышления.

🔬 Проверка гипотезы: от текста к протеинам и логическим операциям 1:33

Чтобы протестировать эту гипотезу, исследователи провели уникальный эксперимент. Они взяли готовую модель, которая обучалась исключительно на текстовых данных, и полностью изолировали ее от языковой среды. Нейросети предложили решить ряд задач, принципиально не связанных с лингвистикой:

Классификация изображений;
Предсказание мест связывания в белковых последовательностях (протеиновый анализ);
Вычисление логической операции XOR (исключающее ИЛИ) для последовательности битов.

Аббиль подчеркивает, что ни одна из этих задач не является языковой. Более того, они не имели генеративной природы, в отличие от привычных сценариев применения GPT-3, где модель создает веб-страницы или тексты на основе подсказок. Ученые исходили из предположения, что внутри нейросети существует универсальный «движок рассуждений», способный анализировать любые входные объекты и делать на их основе логические выводы. Они рассчитывали, что, столкнувшись с изображением, языковая модель сможет понять структуру объектов и принципы их взаимодействия.

⚙️ Архитектура эксперимента: «согласование импеданса» при минимальном обучении 3:20

Поскольку языковая модель изначально способна воспринимать только текст, исследователям потребовалось провести то, что Питер Аббиль называет «согласованием импеданса». Чтобы подать на вход трансформера изображение или математическую последовательность, ученые использовали простейший линейный слой эмбеддинга. Этот слой выполнял минимальный объем вычислительной работы, что было принципиальным условием эксперимента. Вся основная когнитивная нагрузка должна была лечь на предобученный трансформер.

На выходе из модели также устанавливался один простой линейный слой, поскольку вместо генерации слов исследователям нужно было получить конкретное решение: класс объекта на картинке, результат операции XOR (ноль или единица) или подтверждение связи в молекуле белка. Кроме того, ученым пришлось заново переобучить параметры внутренней послойной нормализации трансформера (layer normalization), чтобы адаптировать масштабы новых входящих данных под внутренние веса сети.

В ходе эксперимента архитектура настраивалась следующим образом:

Основное «тело» трансформера полностью замораживалось.
Переобучению подвергались только параметры слоев нормализации, а также входной и выходной линейные слои.
В итоге обучалось всего около 0,1% от общего числа параметров гигантской языковой модели.

📊 Результаты и сравнение с «рандомной» моделью 4:25

Модифицированная таким образом нейросеть продемонстрировала удивительно высокую эффективность. По словам Аббиля, это подтверждает, что при масштабном обучении на текстах трансформер не просто зазубривает правила языка, а формирует внутри себя абстрактные логические паттерны.

Для чистоты эксперимента исследователи провели контрольный тест. Они взяли трансформер точно такой же архитектуры, но заполнили его случайными весами, то есть не обучали на текстах. «Рандомная» модель тоже показала определенные результаты, что указывает на изначальную вычислительную мощность самой архитектуры трансформера. Тем не менее предобученная на языковых данных модель справилась с задачами значительно лучше. Это доказывает, что знания, полученные из человеческих текстов, успешно переносятся на совершенно другие научные и прикладные домены.

В то же время Питер Аббиль призывает трезво оценивать результаты и не путать «удивительную эффективность» с абсолютным технологическим рекордом. Ответ на вопрос ведущего о том, удалось ли превзойти лучшие мировые алгоритмы, был отрицательным:

«Это не было лучшим в мире решением (state-of-the-art). Если вам нужен лучший в мире классификатор изображений, вы вряд ли станете сначала обучать сеть на текстах, а потом прикручивать к ней линейные слои. По крайней мере, не сейчас».

Под термином «сверхрезультат» ученые имели в виду то, что модель справилась с незнакомыми задачами во много раз лучше, чем при случайном угадывании, задействовав всего 0,1% своих настраиваемых мощностей.

🧬 Аналогия с человеческим мозгом и нейропластичностью 5:42

Размышляя о природе универсальности ИИ, Аббиль проводит параллель с человеческой биологией. Наше мышление обладает поразительной гибкостью, и отдельные участки мозга способны менять свою специализацию. В науке известны случаи, когда у незрячих людей зоны коры, обычно отвечающие за зрение, начинают обрабатывать звуковые сигналы. Существуют также эксперименты, в которых визуальные сигналы транслировались на рецепторы языка, и мозг успешно адаптировался к восприятию этой информации.

По мнению гостя, в трансформерах мы начинаем наблюдать схожие процессы переиспользования и универсальности механизмов обработки данных. При этом исследователь делает важную оговорку: искусственные нейросети все еще бесконечно далеки от человеческого мозга, устройство которого гораздо сложнее и пока не до конца понятно современной науке.

🔮 Будущее исследований: мультимодальность и унифицированные представления 8:32

Говоря о перспективах этого научного направления, Аббиль выделяет огромный потенциал в области изучения мультимодальных данных. В качестве успешного примера он приводит модель CLIP от OpenAI, которая одновременно обучалась как на текстах, так и на изображениях, за счет чего научилась эффективно связывать эти два домена.

В будущем искусственный интеллект сможет одновременно обрабатывать самые разные типы информации, которые естественным образом связаны в реальном мире, даже если они не идеально выровнены между собой. Перспективными направлениями для совместного обучения (co-training) спикер считает следующие комбинации:

Аудио и видео в мультимедийных системах;
Текст и статические изображения;
Потоки видео, звука и пространственных данных в робототехнике.

В более отдаленной перспективе, по прогнозам Аббиля, роботы смогут задействовать даже искусственные обонятельные сенсоры. Объединение столь разнообразных органов чувств в рамках одной нейросети позволит ИИ создавать глубокие, унифицированные представления о мире, которые будут гораздо более совершенными, чем модели, обученные на каждом типе данных по отдельности.