Google PaLM и OpenAI DALL-E 2: Технический разбор главных нейросетевых прорывов

На этой неделе индустрия искусственного интеллекта пережила настоящий тектонический сдвиг: компания Google представила гигантскую языковую модель PaLM с 540 миллиардами параметров, а OpenAI анонсировала DALL-E 2, установив новую планку в генерации изображений. Исследователь ИИ Янник Кильчер (Yannic Kilcher) разбирает технические детали этих релизов, анализирует феномен «скачкообразного улучшения» способностей нейросетей и критикует закрытую политику OpenAI.

🚀 Google PaLM: 540 миллиардов параметров и прорыв в инженерном деле 2:49

Google представила Pathways Language Model (PaLM) — плотную (dense) модель-трансформер, которая в разы превосходит по масштабу GPT-3 . В отличие от разреженных (sparse) моделей, где активируется лишь часть нейронов, PaLM задействует все 540 миллиардов параметров при каждом проходе .

Техническая реализация этого проекта стала триумфом инженерной мысли Google:

Масштабируемость: Для обучения использовалась система Pathways, позволяющая эффективно объединять ресурсы нескольких дата-центров .
Аппаратное обеспечение: Модель обучали на двух TPU v4 подах, объединив в общей сложности 6144 чипа .
Эффективность (FLOP Utilization): Разработчикам удалось достичь показателя использования вычислительной мощности выше 50%. По словам Янника Кильчера, это невероятное достижение, так как обычно передача градиентов между тысячами чипов создает «бутылочное горлышко» .
Скорость передачи данных: В моменты обмена данными между подами нагрузка на сеть достигала 81 терабита в секунду .

Янник Кильчер отмечает, что такие масштабы позволяют использовать модели как «швейцарский армейский нож» для любых задач обработки естественного языка без необходимости дообучения (fine-tuning) всей модели под конкретную цель .

🧠 Феномен «скачкообразного улучшения» и логическое мышление 5:00

Одним из самых удивительных открытий в статье Google стал эффект «прерывистого улучшения» (discontinuous improvements) . Исследователи заметили, что при линейном увеличении масштаба модели её точность в определенных задачах долго остается низкой, но при достижении критического порога (scale threshold) происходит резкий скачок качества .

Особого внимания заслуживают способности PaLM к рассуждению:

Chain-of-thought prompting: Если попросить модель не просто дать ответ, а расписать логическую цепочку шагов, её точность в сложных задачах радикально возрастает .
Объяснение шуток: Модель способна анализировать контекст юмора, объясняя, почему та или иная фраза является смешной .
Здравый смысл: В примере с Дженнифер, которая видит облака «внизу» и отстегивает ремень, PaLM смогла логически вывести, что героиня находится в самолете, летящем со скоростью около 480 км/ч, а не просто идет по улице .

По мнению Янника Кильчера, такая способность к рассуждению вплотную приближает нас к тому, что можно назвать «пониманием» выполняемой задачи .

🎨 DALL-E 2: Новая эра генерации изображений 7:30

OpenAI представила DALL-E 2 — второе поколение своей знаменитой модели для создания изображений по текстовому описанию. Новая версия генерирует картинки в разрешении 1024x1024 и демонстрирует поразительную точность в понимании композиции .

Архитектура модели (в статье она названа unCLIP) радикально отличается от первой версии:

Основа CLIP: Модель опирается на замороженные (frozen) эмбеддинги CLIP, которые связывают текст и изображения .
Prior (Приор): Новый блок, который переводит текстовое описание в «образ» (image embedding). Он может быть реализован как диффузионная модель или как авторегрессионная сеть .
Decoder (Декодер): Диффузионная модель, которая превращает полученный эмбеддинг в финальное изображение .

DALL-E 2 позволяет не только создавать картины с нуля (например, «кролик-детектив на скамейке в викторианском стиле»), но и редактировать их — добавлять или заменять объекты, сохраняя освещение и тени .

Янник Кильчер критически относится к закрытости OpenAI: компания не выпускает модель в открытый доступ и даже не предоставляет API, объясняя это «соображениями безопасности» . По мнению автора канала, в эти аргументы уже никто не верит: истинная причина — желание монетизировать технологию, и было бы честнее признать это прямо .

🔓 Демократизация и альтернативы: LAION-5B и Salesforce 12:01

Пока техгиганты закрывают свои наработки, Open Source сообщество делает огромные успехи в воспроизведении их результатов.

LAION-5B: Опубликован открытый датасет из 5 миллиардов пар «изображение-текст» . На его основе уже обучены модели CLIP, которые по метрикам не уступают закрытым версиям от OpenAI .
Открытые диффузионные модели: Уже существуют бесплатные модели (например, от CompVis), которые можно запустить в Google Colab .
Salesforce CodeGen: Компания Salesforce выпустила свои модели для генерации кода различных размеров. По словам Янника Кильчера, эти модели по некоторым параметрам превосходят знаменитую Codex от OpenAI в задачах синтеза программ .

Подводя итог, Кильчер отмечает, что сейчас наступило самое захватывающее время в истории машинного обучения, когда новости о «невозможных» ранее достижениях приходят буквально каждый день .