В новом материале на канале Computerphile ведущий разбирает недавнее научное исследование, ставящее под сомнение бесконечный потенциал масштабирования генеративного искусственного интеллекта. Анализируя эффективность мультимодальных моделей на основе эмбеддингов, автор видео исследует, почему современные нейросети неизбежно сталкиваются с «плато» при решении сложных задач. Главный вывод работы неутешителен для технологических гигантов: простая закупка видеокарт и расширение обучающих выборок больше не гарантируют качественного прорыва.
🧩 Суть технологии: как CLIP объединяет текст и изображения 0:00
Популярный подход к созданию генеративного ИИ строится на сопоставлении огромных массивов данных. В основе многих современных систем визуального ИИ лежит технология сопоставления изображений и текстовых описаний, известная как эмбеддинги CLIP (CLIP embeddings). Процесс обучения устроен следующим образом: система берет картинку и текст, а затем пропускает их через две нейросетевые структуры — большой зрительный трансформер (Vision Transformer) и текстовый кодировщик.
В результате их работы формируется общее пространство эмбеддингов, где каждому объекту присваивается свой цифровой отпечаток — числовой вектор, отражающий смысловое значение. Если изображение и текст соответствуют друг другу, их векторы в этом пространстве будут максимально сближены.
Как отмечает ведущий, эту технологию можно эффективно применять для целого ряда прикладных (downstream) задач:
- Классификация изображений по категориям.
- Поиск картинок по текстовому запросу.
- Построение рекомендательных систем.
В качестве примера успешного внедрения подобных алгоритмов автор приводит стриминговые платформы Spotify и Netflix. На основе истории просмотров или прослушиваний система ищет в векторном пространстве медиаконтент со схожими цифровыми отпечатками и предлагает его пользователю. Тем не менее, эффективность таких рекомендаций в реальной жизни всё ещё может сильно варьироваться.
📊 Три сценария развития ИИ и суровая реальность 4:49
В технологическом секторе со стороны крупных ИТ-корпораций часто звучит аргумент: если бесконечно увеличивать объемы данных и масштабировать нейросети, модель в конечном итоге выйдет за рамки простого распознавания котиков и обретет полноценный общий искусственный интеллект (AGI). По словам ведущего, как человек от науки, он привык доверять не громким заявлениям в блогах, а экспериментальным подтверждениям. Именно поэтому его внимание привлекла новая научная статья, авторы которой проверили эту гипотезу на практике.
Исследователи отобрали около 4000 базовых текстовых концептов (от простых понятий до специфических терминов) и проанализировали частоту их упоминания в обучающих выборках. Затем они протестировали, как точность работы моделей в режиме zero-shot (способность решать задачи без предварительных примеров) зависит от объема данных по конкретному концепту.
Если представить результаты исследования в виде графика, где по оси X отложено количество обучающих примеров, а по оси Y — точность выполнения задачи, то теоретически возможны три сценария развития технологий:
- Экспоненциальный взрыв (AI explosion): линия графика резко уходит вверх. Это оптимистичный сценарий сторонников AGI, согласно которому индустрия находится на пороге создания всемогущего ИИ, способного мгновенно обучаться на минимальном количестве данных.
- Линейный (прагматичный) рост: сбалансированная модель, где добавление новых данных стабильно и пропорционально улучшает качество работы системы. В идеале это привело бы к безошибочной генерации картинок по первому запросу или написанию безупречных текстов.
- Логарифмическое плато (пессимистичный сценарий): график демонстрирует быстрый рост на начальном этапе, но затем кривая резко выравнивается.
Эксперименты, проведенные авторами статьи на множестве различных моделей и архитектур, наглядно доказали, что реальное положение дел соответствует третьему, логарифмическому сценарию.
📉 Проблема «плато» и миллиардные затраты 7:44
Выравнивание кривой эффективности означает, что индустрия генеративного ИИ стремительно приближается к технологическому тупику. Разработчики могут продолжать вливать миллионы долларов в обучение моделей и скупать тысячи передовых графических процессоров, но качество работы систем практически перестанет расти.
Автор видео подчеркивает финансовую и практическую неэффективность слепого масштабирования:
«Мы можем прийти к ситуации, когда удвоение обучающей выборки до 10 миллиардов изображений принесет нам всего лишь 1% прироста точности в задачах классификации. Да, это шаг вперед, но стоит ли он затраченных ресурсов?»
По мнению ведущего, данные результаты служат весомым аргументом против теории о неизбежном «технологическом взрыве» за счет простого накопления информации. Если ИТ-индустрия хочет двигаться дальше и преодолеть плато, ей потребуются принципиально новые подходы: изменение внутренней структуры архитектуры Transformer, разработка альтернативных методов репрезентации данных или создание принципиально иных стратегий машинного обучения. В противном случае будущие версии систем (например, гипотетические ChatGPT 7, 8 или 9) по своим базовым возможностям мало чем будут отличаться от текущего поколения моделей.
🐈 Неравномерность данных: почему ИИ обожает котиков и путает деревья 9:05
Главная причина, по которой универсальные генеративные модели начинают сбоить на сложных задачах, кроется в катастрофической неравномерности распределения информации в интернете. Наше цифровое пространство перенасыщено популярным контентом, но обходит стороной узкоспециализированные темы.
В качестве примеров такой диспропорции в обучающих выборках автор приводит следующие факты:
- Изображения кошек представлены в сети в избыточном количестве, опережая другие категории на порядки. Именно поэтому ИИ безошибочно определяет породы домашних питомцев и генерирует их изображения в любых стилях.
- Узкие научные темы, редкие артефакты из видеоигр или специфические подвиды растений находятся в глубоком дефиците. Модель может легко нарисовать качественный замок в стиле Клода Моне, поскольку замков в датасете много. Однако при попытке сгенерировать редкий игровой предмет качество изображения мгновенно падает из-за отсутствия примеров в обучении.
Тот же деструктивный процесс наблюдается и в текстовых больших языковых моделях (LLM). По словам ведущего, если спросить ChatGPT о фундаментальном законе физики, пользователь получит развернутый и точный ответ, так как эта информация широко представлена в учебниках и статьях. Но стоит перейти к сложным, нестандартным задачам по программированию, которые редко встречаются в открытом доступе, эффективность системы резко снижается. Нейросеть начинает выдумывать несуществующие функции и галлюцинировать.
Исследование доказывает, что для качественного выполнения сложных и редких задач нам необходимо полностью отказаться от экстенсивного пути развития — простого сбора случайных текстов и картинок со всего интернета больше не достаточно. Несмотря на то, что крупные технологические компании пытаются обойти это ограничение с помощью более строгой фильтрации данных и обучения с подкреплением на основе отзывов людей (RLHF), фундаментальный барьер нехватки качественной специализированной информации остается в силе.