Исследование CLIP-моделей выявило логарифмическое плато в обучении нейросетей

На фоне громких заявлений технологических гигантов о неизбежном создании общего искусственного интеллекта (AGI) за счет простого наращивания масштабов, новое научное исследование ставит под сомнение эту популярную парадигму. В свежем выпуске научно-популярного канала Computerphile автор видео разбирает научную работу, которая экспериментально доказывает наличие жесткого плато в развитии современных генеративных моделей. Анализ эффективности ИИ на сложных и редких задачах показывает, что эпоха легкого экспоненциального роста сменяется логарифмическим замедлением, преодолеть которое текущими методами невозможно.

🛠️ Механика CLIP-эмбеддингов и иллюзия бесконечного масштабирования 0:00

Современные мультимодальные системы во многом опираются на технологию CLIP-эмбеддингов. Этот механизм использует большую нейросеть-трансформатор для обработки изображений (Vision Transformer) и аналогичный текстовый кодировщик. Их общая задача — сопоставить картинку и текстовую строку в едином общем пространстве, где они получают общий числовой «отпечаток пальца», отражающий их смысл. На базе таких эмбеддингов строятся прикладные (downstream) задачи: классификация изображений, поиск визуального контента и рекомендательные системы, подобные тем, что используют стриминговые гиганты вроде Spotify или Netflix.

В технологическом секторе долгое время доминировал аргумент, активно продвигаемый ИТ-корпорациями ради продажи своих продуктов: если обучить достаточно большую сеть на колоссальном массиве данных, модель перейдет от банального распознавания кошек и собак к пониманию абсолютно любых явлений. Сторонники этой теории верили, что если показать ИИ миллиарды кошек, то понимание того, как выглядит слон, возникнет само собой за счет масштаба. Однако, как подчеркивает ведущий Computerphile, в науке принято не просто строить гипотезы, а искать им экспериментальное подтверждение. Свежая научная работа, представленная в выпуске, на цифрах доказывает, что концепция «просто добавь данных» больше не работает.

📊 Суть исследования: 4000 концептов и три кривые эффективности 4:36

Чтобы проверить жизнеспособность гипотезы бесконечного масштабирования, авторы обсуждаемого исследования определили около 4000 базовых текстовых концептов. Среди них были как простые (например, «кошка» или «человек»), так и более специфические (конкретные подвиды животных или маркеры заболеваний на медицинских снимках). Ученые сопоставили частоту встречаемости этих концептов в обучающих выборках с тем, насколько успешно обученные модели справляются с задачами классификации и рекомендаций в режиме zero-shot (без предварительного знакомства с конкретной задачей).

Для наглядности ведущий канала предлагает визуализировать результаты в виде графика, где по оси X отложено количество примеров концепта в обучении, а по оси Y — итоговая точность работы ИИ.

Теоретически траектория развития технологии могла пойти по одному из трех сценариев:

Сценарий «взрыва ИИ»: стремительная, уходящая резко вверх экспоненциальная кривая. Именно в этот исход верят сторонники скорого прихода сверхразума, считая, что масштаб решит любые мировые проблемы.
Прагматичный сценарий: стабильный линейный рост, при котором каждые новые инвестиции в данные приносят пропорциональное и ощутимое улучшение результатов.
Реальный сценарий (доказанный исследованием): логарифмическая кривая, которая после короткого начального всплеска резко выполаживается и превращается в горизонтальное плато.

📉 Логарифмическое плато: почему миллиарды долларов не купят точность 7:32

Как отмечает ведущий, собранные исследователями доказательства выглядят пугающе единообразно: независимо от архитектурных методов, используемых датасетов или прикладных задач, подавляющее большинство графиков демонстрирует одну и ту же логарифмическую кривую, выходящую на плато. Это означает, что индустрия стремительно приближается к технологическому тупику. Обучение моделей уже стоит миллионы долларов, но дальнейшие финансовые вливания перестают приносить результат.

По оценке автора видео, если удвоить существующие базы данных, например, до 10 миллиардов изображений, точность классификации на сложных участках может вырасти всего на ничтожный 1%. В связи с этим возникает резонный экономический вопрос: оправданы ли такие колоссальные затраты ради минимального прогресса? Ведущий приходит к выводу, что для качественного скачка вперед индустрии ИИ требуются принципиально новые математические стратегии и подходы к репрезентации данных, поскольку потенциал архитектуры Трансформеров в её нынешнем виде близок к исчерпанию.

В ходе обсуждения также проясняется разница между генеративным ИИ и узкоспециализированными утилитами — например, мобильными приложениями для определения видов деревьев по фотографии. Такие приложения работают эффективно, потому что решают локальную, изолированную задачу классификации. Попытка заменить их единой «всемогущей» генеративной моделью общего назначения провалилась именно из-за неспособности гигантских сетей качественно осваивать сложные единичные задачи без бесконечного массива специализированных данных.

🐈 Проблема неравномерного распределения и «галлюцинации» ИИ 9:05

Фундаментальный изъян современных моделей кроется в так называемом «длинном хвосте» распределения информации в интернете. Такие популярные категории, как кошки, перепредставлены в обучающих выборках на порядки. В то же время специфические типы самолетов или редкие биологические виды деревьев находятся в глубоком дефиците. Именно поэтому ИИ отлично понимает верхнеуровневые категории, но пасует перед деталями.

Этот дисбаланс наглядно проявляется в смежных сферах:

Генерация изображений: если попросить нейросеть нарисовать замок в стиле Клода Моне, результат будет великолепным, так как подобные объекты массово присутствовали в обучении. Но стоит запросить редкий артефакт из малоизвестной видеоигры, как качество генерации мгновенно деградирует из-за нехватки данных.
Текстовые модели (LLM): чат-боты вроде ChatGPT прекрасно объясняют базовые законы физики. Однако при попытке заставить их написать сложный, нетипичный программный код, модель начинает выдумывать несуществующие функции и «галлюцинировать», поскольку этот сегмент знаний слабо представлен в её обучающем корпусе.

По мнению автора канала, для качественного решения редких и сложных задач ИТ-индустрии придется искать альтернативные пути вместо банального сбора интернет-текстов. Безусловно, крупные корпорации обладают огромными ресурсами, закупают массивы GPU и активно внедряют системы обучения с подкреплением на основе отзывов людей (RLHF) для полировки ответов. Тем не менее, как предполагает ведущий, велика вероятность, что будущие гипотетические модели ChatGPT 7, 8 или 9 по своей реальной эффективности окажутся примерно на том же уровне, что и текущая ChatGPT 4, окончательно завязнув на логарифмическом плато.

🧩 Минутка от спонсора: Головоломки для программистов 11:38

В завершение выпуска ведущий разбавляет сложную научную дискуссию традиционной интеграцией от спонсора — компании Jane Street. Он предлагает зрителям поразмышлять над математической головоломкой под названием Bug Bite («Укус бага»), которая метафорически воспроизводит классические будни программиста: ситуация, когда исправление одной ошибки в коде запускает целую цепочку новых непредвиденных проблем.

Кроме того, компания Jane Street анонсировала запуск ряда бесплатных образовательных программ с полным покрытием расходов для разработчиков и любителей сложных вычислительных задач. Ведущий призывает увлеченных компьютерными науками зрителей проверить свои силы и успеть подать заявки до истечения ближайших дедлайнов.