Исследование CLIP-моделей выявило логарифмическое плато в обучении нейросетей

Computerphile 1,2 млн 12 мин 5 мин 09.05.2024
Главное

На фоне громких заявлений технологических гигантов о неизбежном создании общего искусственного интеллекта (AGI) за счет простого наращивания масштабов, новое научное исследование ставит под сомнение эту популярную парадигму. В свежем выпуске научно-популярного канала Computerphile автор видео разбирает научную работу, которая экспериментально доказывает наличие жесткого плато в развитии современных генеративных моделей. Анализ эффективности ИИ на сложных и редких задачах показывает, что эпоха легкого экспоненциального роста сменяется логарифмическим замедлением, преодолеть которое текущими методами невозможно.

🛠️ Механика CLIP-эмбеддингов и иллюзия бесконечного масштабирования 0:00

Современные мультимодальные системы во многом опираются на технологию CLIP-эмбеддингов. Этот механизм использует большую нейросеть-трансформатор для обработки изображений (Vision Transformer) и аналогичный текстовый кодировщик. Их общая задача — сопоставить картинку и текстовую строку в едином общем пространстве, где они получают общий числовой «отпечаток пальца», отражающий их смысл. На базе таких эмбеддингов строятся прикладные (downstream) задачи: классификация изображений, поиск визуального контента и рекомендательные системы, подобные тем, что используют стриминговые гиганты вроде Spotify или Netflix.

В технологическом секторе долгое время доминировал аргумент, активно продвигаемый ИТ-корпорациями ради продажи своих продуктов: если обучить достаточно большую сеть на колоссальном массиве данных, модель перейдет от банального распознавания кошек и собак к пониманию абсолютно любых явлений. Сторонники этой теории верили, что если показать ИИ миллиарды кошек, то понимание того, как выглядит слон, возникнет само собой за счет масштаба. Однако, как подчеркивает ведущий Computerphile, в науке принято не просто строить гипотезы, а искать им экспериментальное подтверждение. Свежая научная работа, представленная в выпуске, на цифрах доказывает, что концепция «просто добавь данных» больше не работает.

📊 Суть исследования: 4000 концептов и три кривые эффективности 4:36

Чтобы проверить жизнеспособность гипотезы бесконечного масштабирования, авторы обсуждаемого исследования определили около 4000 базовых текстовых концептов. Среди них были как простые (например, «кошка» или «человек»), так и более специфические (конкретные подвиды животных или маркеры заболеваний на медицинских снимках). Ученые сопоставили частоту встречаемости этих концептов в обучающих выборках с тем, насколько успешно обученные модели справляются с задачами классификации и рекомендаций в режиме zero-shot (без предварительного знакомства с конкретной задачей).

Для наглядности ведущий канала предлагает визуализировать результаты в виде графика, где по оси X отложено количество примеров концепта в обучении, а по оси Y — итоговая точность работы ИИ.

Теоретически траектория развития технологии могла пойти по одному из трех сценариев:

📉 Логарифмическое плато: почему миллиарды долларов не купят точность 7:32

Как отмечает ведущий, собранные исследователями доказательства выглядят пугающе единообразно: независимо от архитектурных методов, используемых датасетов или прикладных задач, подавляющее большинство графиков демонстрирует одну и ту же логарифмическую кривую, выходящую на плато. Это означает, что индустрия стремительно приближается к технологическому тупику. Обучение моделей уже стоит миллионы долларов, но дальнейшие финансовые вливания перестают приносить результат.

По оценке автора видео, если удвоить существующие базы данных, например, до 10 миллиардов изображений, точность классификации на сложных участках может вырасти всего на ничтожный 1%. В связи с этим возникает резонный экономический вопрос: оправданы ли такие колоссальные затраты ради минимального прогресса? Ведущий приходит к выводу, что для качественного скачка вперед индустрии ИИ требуются принципиально новые математические стратегии и подходы к репрезентации данных, поскольку потенциал архитектуры Трансформеров в её нынешнем виде близок к исчерпанию.

В ходе обсуждения также проясняется разница между генеративным ИИ и узкоспециализированными утилитами — например, мобильными приложениями для определения видов деревьев по фотографии. Такие приложения работают эффективно, потому что решают локальную, изолированную задачу классификации. Попытка заменить их единой «всемогущей» генеративной моделью общего назначения провалилась именно из-за неспособности гигантских сетей качественно осваивать сложные единичные задачи без бесконечного массива специализированных данных.

🐈 Проблема неравномерного распределения и «галлюцинации» ИИ 9:05

Фундаментальный изъян современных моделей кроется в так называемом «длинном хвосте» распределения информации в интернете. Такие популярные категории, как кошки, перепредставлены в обучающих выборках на порядки. В то же время специфические типы самолетов или редкие биологические виды деревьев находятся в глубоком дефиците. Именно поэтому ИИ отлично понимает верхнеуровневые категории, но пасует перед деталями.

Этот дисбаланс наглядно проявляется в смежных сферах:

По мнению автора канала, для качественного решения редких и сложных задач ИТ-индустрии придется искать альтернативные пути вместо банального сбора интернет-текстов. Безусловно, крупные корпорации обладают огромными ресурсами, закупают массивы GPU и активно внедряют системы обучения с подкреплением на основе отзывов людей (RLHF) для полировки ответов. Тем не менее, как предполагает ведущий, велика вероятность, что будущие гипотетические модели ChatGPT 7, 8 или 9 по своей реальной эффективности окажутся примерно на том же уровне, что и текущая ChatGPT 4, окончательно завязнув на логарифмическом плато.

🧩 Минутка от спонсора: Головоломки для программистов 11:38

В завершение выпуска ведущий разбавляет сложную научную дискуссию традиционной интеграцией от спонсора — компании Jane Street. Он предлагает зрителям поразмышлять над математической головоломкой под названием Bug Bite («Укус бага»), которая метафорически воспроизводит классические будни программиста: ситуация, когда исправление одной ошибки в коде запускает целую цепочку новых непредвиденных проблем.

Кроме того, компания Jane Street анонсировала запуск ряда бесплатных образовательных программ с полным покрытием расходов для разработчиков и любителей сложных вычислительных задач. Ведущий призывает увлеченных компьютерными науками зрителей проверить свои силы и успеть подать заявки до истечения ближайших дедлайнов.

💬 Цитаты

«Идея о том, что можно просто добавлять больше данных или увеличивать модели, чтобы решить любую задачу, наталкивается на суровую реальность.»

Ведущий канала Computerphile 01:47

«Мы можем удвоить набор данных до 10 миллиардов изображений и получить всего 1% прироста точности — стоит ли оно того?»

Ведущий канала Computerphile 08:38
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
CLIP-эмбеддинг
Метод сопоставления текста и изображений в едином математическом пространстве для определения их смысловой близости.
Трансформер (Transformer)
Популярная архитектура нейросетей, используемая для обработки последовательностей в современных ИИ-моделях.
Логарифмическая кривая
График зависимости, демонстрирующий быстрое замедление роста и выход на горизонтальное плато.
Галлюцинация ИИ
Генерация нейросетью правдоподобного, но фактологически абсолютно ложного или выдуманного контента.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Computerphile CLIP-эмбеддинги масштабирование ИИ эффективность моделей