# Самая важная неделя в ИИ: релиз GPT-4, Office Copilot и возвращение GAN

Источник: https://www.youtube.com/watch?v=YqPYDWPYXFs
Канал: Yannic Kilcher
Опубликовано: 19.03.2023

---

В мире искусственного интеллекта наступила «большая неделя», ознаменовавшаяся серией фундаментальных релизов от крупнейших технологических игроков. Пока Microsoft и Google интегрируют генеративные модели в свои офисные пакеты, OpenAI выпускает долгожданную GPT-4, а исследователи находят способы запускать мощные алгоритмы даже на старых смартфонах.

## 🤖 Революция GPT-4 и гонка офисных ассистентов
[[JUMP:00:26]]

Прошедшая неделя стала одной из самых значимых в истории индустрии ИИ. Ключевые события развернулись вокруг интеграции нейросетей в повседневные рабочие инструменты [00:26]. 

*   **Google PaLM и Workspace**: Google анонсировала API для своих гигантских моделей PaLM и их внедрение в сервисы Docs, Presentations и Spreadsheets [00:39].
*   **Microsoft Office Copilot**: Корпорация представила Copilot для пакета Office, что позволит пользователям создавать текстовые документы и презентации PowerPoint с помощью генеративного ИИ в реальном времени.
*   **Anthropic Claude**: Компания Anthropic официально представила свою модель Claude — чат-бота, который, по отзывам первых пользователей, демонстрирует высокую эффективность и «безопасность» [00:52].

Особое внимание привлек релиз GPT-4 от OpenAI. Интересно, что за несколько дней до официального анонса CTO Microsoft Germany обмолвился на немецком мероприятии, что GPT-4 выйдет «на следующей неделе» [02:33]. Ведущий Янник Килчер изначально отнесся к этому скептически, предположив, что сотрудник просто ошибся, так как подобные анонсы обычно делает сама OpenAI через свои каналы [03:45]. Однако прогноз о выходе модели подтвердился, сделав GPT-4 новым стандартом в области мультимодальных систем [13:30].

## 🖼️ Возвращение GAN: GigaGAN против диффузионных моделей
[[JUMP:04:37]]

Долгое время в генерации изображений доминировали диффузионные модели (такие как Stable Diffusion или Midjourney). Однако сейчас происходит возвращение GAN — Генеративно-состязательных сетей [04:37].

Исследователи представили **GigaGAN** — масштабируемую архитектуру, которая объединяет классические преимущества GAN (скорость и обучаемое латентное пространство) с возможностями современных текстовых энкодеров [05:15]. 

Ключевые особенности GigaGAN:

*   **Скорость**: В отличие от диффузионных моделей, требующих множества шагов деnoise-процесса, GAN генерирует изображение за один проход («chuck a bomb») [07:10].
*   **Управляемость**: Использование подхода StyleGAN позволяет разделять грубое и детальное редактирование. Например, можно задать форму «плюшевого мишки», а на более мелком уровне детализации сменить его текстуру на мех, деним или вязаное полотно [06:44].
*   **Апсемплинг**: Модель использует встроенные алгоритмы повышения разрешения, что делает финальные изображения кристально четкими [06:06].

Янник Килчер отмечает, что этот прорыв подтверждает «горький урок» компьютерных наук: при накоплении достаточного масштаба данных и параметров практически любая архитектура начинает показывать выдающиеся результаты [07:10].

## 🌕 Скандал с Samsung: «Нарисованная» Луна
[[JUMP:08:55]]

В сообществе Reddit разгорелось обсуждение обвинения в адрес Samsung. Пользователь ibreakphotos предоставил доказательства того, что функция «Space Zoom» в смартфонах компании при съемке Луны является фейком [08:55].

Эксперимент был простым и наглядным [10:01]:

1. Исследователь взял качественное фото Луны и намеренно сильно размыл его в графическом редакторе, удалив все детали.
2. Вывел это блюрное пятно на экран монитора.
3. Сфотографировал экран на смартфон Samsung с большого расстояния.
4. Смартфон выдал четкое изображение Луны с кратерами и текстурой, которых **не было** на мониторе.

По мнению Килчера, здесь работает не просто наложение статичной картинки, а высокоспециализированная модель супер-разрешения (Super Resolution), обученная исключительно на фотографиях Луны [11:45]. Поскольку Луна всегда повернута к Земле одной стороной из-за приливного захвата, ИИ не нужно «галлюцинировать» общую структуру — он просто выучил единственно возможную текстуру [12:24]. В результате смартфон фактически игнорирует входящий визуальный сигнал, если он похож на круглый белый объект, и подставляет изученную карту поверхности [13:18].

## 🛡️ Безопасность и открытость данных
[[JUMP:16:51]]

В области этики и прозрачности данных появилось несколько важных инициатив.

**Data Portraits** — это предложенная исследователями концепция «портрета данных» на базе фильтров Блума [16:51]. Она позволяет проверить, участвовал ли конкретный текст в обучении модели, не распространяя при этом сами терабайты обучающих данных. Размер такого «портрета» составляет всего около 3% от исходного датасета [17:53].

**Hugging Face и строгие ограничения** [19:53]:
Популярная платформа Hugging Face ввела функцию «gated models» — доступ к моделям только после одобрения автора или принятия определенных условий. Янник Килчер критикует это решение, цитируя Падме Амидалу из «Звездных войн»: «Так погибает свобода — под гром аплодисментов» [20:47]. По его мнению, ограничения на использование противоречат духу Open Source, и поддержка таких механизмов платформой отдаляет индустрию от идеалов свободного обмена знаниями [21:15].

## 🏗️ Промпт-инжиниринг как новая дисциплина
[[JUMP:22:07]]

Microsoft представила систему **Visual ChatGPT**, которая позволяет взаимодействовать с визуальными моделями (Stable Diffusion, ControlNet, BLIP) через текстовый чат [22:07]. Пользователь может попросить: «Сгенерируй кота», а затем добавить: «Замени кота на собаку и удали книгу». Система сама вызывает нужные алгоритмы для обработки частей изображения.

Килчер подчеркивает, что развитие подобных инструментов легитимизирует профессию «промпт-инженера» [23:14]. Теперь серьезные усилия тратятся не на написание кода, а на подбор точных фраз, которые заставят ансамбль нейросетей работать корректно [23:27].

## 🧠 Мультимодальность в робототехнике: PaLM-E
[[JUMP:33:34]]

Google Research и TU Berlin представили **PaLM-E** — «воплощенную» (embodied) мультимодальную модель. Она интегрирует изображения, текст и данные с сенсоров робота в единое пространство токенов [33:34]. 

Благодаря этому робот может выполнять сложные инструкции в реальном мире, такие как «Принеси мне рисовые чипсы из ящика», даже если он никогда не видел именно эту пачку чипсов раньше [34:39]. Система понимает геометрию пространства и может планировать траектории движения, опираясь на визуальные и текстовые подсказки одновременно.

## 🔬 Наука и медицина: первый коннектом насекомого
[[JUMP:40:02]]

В завершение недели произошло историческое событие для нейронауки — была опубликована первая полная карта мозга насекомого (коннектом) [40:02]. Это атлас, показывающий каждый нейрон и каждую связь между ними. По словам Килчера, это достижение на порядок сложнее предыдущих карт (например, круглых червей) и помогает науке лучше понять принципы работы биологического интеллекта, что в будущем может дать новые идеи и для ИИ [40:19].

---