Google PaLM и OpenAI DALL-E 2: Технический разбор главных нейросетевых прорывов

Yannic Kilcher 52,5 тыс. 14 мин 3 мин 10.04.2022
Главное

На этой неделе индустрия искусственного интеллекта пережила настоящий тектонический сдвиг: компания Google представила гигантскую языковую модель PaLM с 540 миллиардами параметров, а OpenAI анонсировала DALL-E 2, установив новую планку в генерации изображений. Исследователь ИИ Янник Кильчер (Yannic Kilcher) разбирает технические детали этих релизов, анализирует феномен «скачкообразного улучшения» способностей нейросетей и критикует закрытую политику OpenAI.

🚀 Google PaLM: 540 миллиардов параметров и прорыв в инженерном деле 2:49

Google представила Pathways Language Model (PaLM) — плотную (dense) модель-трансформер, которая в разы превосходит по масштабу GPT-3 . В отличие от разреженных (sparse) моделей, где активируется лишь часть нейронов, PaLM задействует все 540 миллиардов параметров при каждом проходе .

Техническая реализация этого проекта стала триумфом инженерной мысли Google:

Янник Кильчер отмечает, что такие масштабы позволяют использовать модели как «швейцарский армейский нож» для любых задач обработки естественного языка без необходимости дообучения (fine-tuning) всей модели под конкретную цель .

🧠 Феномен «скачкообразного улучшения» и логическое мышление 5:00

Одним из самых удивительных открытий в статье Google стал эффект «прерывистого улучшения» (discontinuous improvements) . Исследователи заметили, что при линейном увеличении масштаба модели её точность в определенных задачах долго остается низкой, но при достижении критического порога (scale threshold) происходит резкий скачок качества .

Особого внимания заслуживают способности PaLM к рассуждению:

  1. Chain-of-thought prompting: Если попросить модель не просто дать ответ, а расписать логическую цепочку шагов, её точность в сложных задачах радикально возрастает .
  2. Объяснение шуток: Модель способна анализировать контекст юмора, объясняя, почему та или иная фраза является смешной .
  3. Здравый смысл: В примере с Дженнифер, которая видит облака «внизу» и отстегивает ремень, PaLM смогла логически вывести, что героиня находится в самолете, летящем со скоростью около 480 км/ч, а не просто идет по улице .

По мнению Янника Кильчера, такая способность к рассуждению вплотную приближает нас к тому, что можно назвать «пониманием» выполняемой задачи .

🎨 DALL-E 2: Новая эра генерации изображений 7:30

OpenAI представила DALL-E 2 — второе поколение своей знаменитой модели для создания изображений по текстовому описанию. Новая версия генерирует картинки в разрешении 1024x1024 и демонстрирует поразительную точность в понимании композиции .

Архитектура модели (в статье она названа unCLIP) радикально отличается от первой версии:

DALL-E 2 позволяет не только создавать картины с нуля (например, «кролик-детектив на скамейке в викторианском стиле»), но и редактировать их — добавлять или заменять объекты, сохраняя освещение и тени .

Янник Кильчер критически относится к закрытости OpenAI: компания не выпускает модель в открытый доступ и даже не предоставляет API, объясняя это «соображениями безопасности» . По мнению автора канала, в эти аргументы уже никто не верит: истинная причина — желание монетизировать технологию, и было бы честнее признать это прямо .

🔓 Демократизация и альтернативы: LAION-5B и Salesforce 12:01

Пока техгиганты закрывают свои наработки, Open Source сообщество делает огромные успехи в воспроизведении их результатов.

Подводя итог, Кильчер отмечает, что сейчас наступило самое захватывающее время в истории машинного обучения, когда новости о «невозможных» ранее достижениях приходят буквально каждый день .


💬 Цитаты

«В моем понимании это максимально близко к пониманию того, что ты делаешь, если ты способен так рассуждать.»

Янник Кильчер 07:02

«Никто уже не верит OpenAI... Просто скажите, что хотите заработать денег, мы все это поймем.»

Янник Кильчер 11:48
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
FLOP Utilization
Процент реальной вычислительной мощности процессора, которая эффективно используется в процессе обучения.
Chain-of-thought prompting
Метод запроса к нейросети, заставляющий её выдавать промежуточные логические шаги перед финальным ответом.
Diffusion Model
Тип нейросети, которая создает данные (например, изображения), постепенно убирая шум из случайного сигнала.
📊 Цифры
🗓 Хронология
  1. Апрель 2022 Релиз Google PaLM и OpenAI DALL-E 2.
⚖️ Другая сторона
Искусственный интеллект Google PaLM OpenAI DALL-E 2 Yannic Kilcher Diffusion Models TPU v4