# Google PaLM и OpenAI DALL-E 2: Технический разбор главных нейросетевых прорывов

Источник: https://www.youtube.com/watch?v=RJwPN4qNi_Y
Канал: Yannic Kilcher
Опубликовано: 10.04.2022

---

На этой неделе индустрия искусственного интеллекта пережила настоящий тектонический сдвиг: компания Google представила гигантскую языковую модель PaLM с 540 миллиардами параметров, а OpenAI анонсировала DALL-E 2, установив новую планку в генерации изображений. Исследователь ИИ Янник Кильчер (Yannic Kilcher) разбирает технические детали этих релизов, анализирует феномен «скачкообразного улучшения» способностей нейросетей и критикует закрытую политику OpenAI.

## 🚀 Google PaLM: 540 миллиардов параметров и прорыв в инженерном деле
[[JUMP:02:49]]

Google представила Pathways Language Model (PaLM) — плотную (dense) модель-трансформер, которая в разы превосходит по масштабу GPT-3 [02:49]. В отличие от разреженных (sparse) моделей, где активируется лишь часть нейронов, PaLM задействует все 540 миллиардов параметров при каждом проходе [03:01].

Техническая реализация этого проекта стала триумфом инженерной мысли Google:

*   **Масштабируемость:** Для обучения использовалась система Pathways, позволяющая эффективно объединять ресурсы нескольких дата-центров [03:27].
*   **Аппаратное обеспечение:** Модель обучали на двух TPU v4 подах, объединив в общей сложности 6144 чипа [03:43].
*   **Эффективность (FLOP Utilization):** Разработчикам удалось достичь показателя использования вычислительной мощности выше 50%. По словам Янника Кильчера, это невероятное достижение, так как обычно передача градиентов между тысячами чипов создает «бутылочное горлышко» [04:21].
*   **Скорость передачи данных:** В моменты обмена данными между подами нагрузка на сеть достигала 81 терабита в секунду [04:08].

Янник Кильчер отмечает, что такие масштабы позволяют использовать модели как «швейцарский армейский нож» для любых задач обработки естественного языка без необходимости дообучения (fine-tuning) всей модели под конкретную цель [02:09].

## 🧠 Феномен «скачкообразного улучшения» и логическое мышление
[[JUMP:05:00]]

Одним из самых удивительных открытий в статье Google стал эффект «прерывистого улучшения» (discontinuous improvements) [05:27]. Исследователи заметили, что при линейном увеличении масштаба модели её точность в определенных задачах долго остается низкой, но при достижении критического порога (scale threshold) происходит резкий скачок качества [01:05].

Особого внимания заслуживают способности PaLM к рассуждению:

1.  **Chain-of-thought prompting:** Если попросить модель не просто дать ответ, а расписать логическую цепочку шагов, её точность в сложных задачах радикально возрастает [05:55].
2.  **Объяснение шуток:** Модель способна анализировать контекст юмора, объясняя, почему та или иная фраза является смешной [06:08].
3.  **Здравый смысл:** В примере с Дженнифер, которая видит облака «внизу» и отстегивает ремень, PaLM смогла логически вывести, что героиня находится в самолете, летящем со скоростью около 480 км/ч, а не просто идет по улице [06:36].

По мнению Янника Кильчера, такая способность к рассуждению вплотную приближает нас к тому, что можно назвать «пониманием» выполняемой задачи [07:02].

## 🎨 DALL-E 2: Новая эра генерации изображений
[[JUMP:07:30]]

OpenAI представила DALL-E 2 — второе поколение своей знаменитой модели для создания изображений по текстовому описанию. Новая версия генерирует картинки в разрешении 1024x1024 и демонстрирует поразительную точность в понимании композиции [09:12].

Архитектура модели (в статье она названа unCLIP) радикально отличается от первой версии:

*   **Основа CLIP:** Модель опирается на замороженные (frozen) эмбеддинги CLIP, которые связывают текст и изображения [09:37].
*   **Prior (Приор):** Новый блок, который переводит текстовое описание в «образ» (image embedding). Он может быть реализован как диффузионная модель или как авторегрессионная сеть [09:50].
*   **Decoder (Декодер):** Диффузионная модель, которая превращает полученный эмбеддинг в финальное изображение [10:18].

DALL-E 2 позволяет не только создавать картины с нуля (например, «кролик-детектив на скамейке в викторианском стиле»), но и редактировать их — добавлять или заменять объекты, сохраняя освещение и тени [10:32].

Янник Кильчер критически относится к закрытости OpenAI: компания не выпускает модель в открытый доступ и даже не предоставляет API, объясняя это «соображениями безопасности» [11:36]. По мнению автора канала, в эти аргументы уже никто не верит: истинная причина — желание монетизировать технологию, и было бы честнее признать это прямо [11:48].

## 🔓 Демократизация и альтернативы: LAION-5B и Salesforce
[[JUMP:12:01]]

Пока техгиганты закрывают свои наработки, Open Source сообщество делает огромные успехи в воспроизведении их результатов.

*   **LAION-5B:** Опубликован открытый датасет из 5 миллиардов пар «изображение-текст» [12:01]. На его основе уже обучены модели CLIP, которые по метрикам не уступают закрытым версиям от OpenAI [12:41].
*   **Открытые диффузионные модели:** Уже существуют бесплатные модели (например, от CompVis), которые можно запустить в Google Colab [13:06].
*   **Salesforce CodeGen:** Компания Salesforce выпустила свои модели для генерации кода различных размеров. По словам Янника Кильчера, эти модели по некоторым параметрам превосходят знаменитую Codex от OpenAI в задачах синтеза программ [13:32].

Подводя итог, Кильчер отмечает, что сейчас наступило самое захватывающее время в истории машинного обучения, когда новости о «невозможных» ранее достижениях приходят буквально каждый день [13:46].

---