Самая важная неделя в ИИ: релиз GPT-4, Office Copilot и возвращение GAN

Yannic Kilcher 91,3 тыс. 41 мин 4 мин 19.03.2023
Главное

В мире искусственного интеллекта наступила «большая неделя», ознаменовавшаяся серией фундаментальных релизов от крупнейших технологических игроков. Пока Microsoft и Google интегрируют генеративные модели в свои офисные пакеты, OpenAI выпускает долгожданную GPT-4, а исследователи находят способы запускать мощные алгоритмы даже на старых смартфонах.

🤖 Революция GPT-4 и гонка офисных ассистентов 0:26

Прошедшая неделя стала одной из самых значимых в истории индустрии ИИ. Ключевые события развернулись вокруг интеграции нейросетей в повседневные рабочие инструменты .

Особое внимание привлек релиз GPT-4 от OpenAI. Интересно, что за несколько дней до официального анонса CTO Microsoft Germany обмолвился на немецком мероприятии, что GPT-4 выйдет «на следующей неделе» . Ведущий Янник Килчер изначально отнесся к этому скептически, предположив, что сотрудник просто ошибся, так как подобные анонсы обычно делает сама OpenAI через свои каналы . Однако прогноз о выходе модели подтвердился, сделав GPT-4 новым стандартом в области мультимодальных систем .

🖼️ Возвращение GAN: GigaGAN против диффузионных моделей 4:37

Долгое время в генерации изображений доминировали диффузионные модели (такие как Stable Diffusion или Midjourney). Однако сейчас происходит возвращение GAN — Генеративно-состязательных сетей .

Исследователи представили GigaGAN — масштабируемую архитектуру, которая объединяет классические преимущества GAN (скорость и обучаемое латентное пространство) с возможностями современных текстовых энкодеров .

Ключевые особенности GigaGAN:

Янник Килчер отмечает, что этот прорыв подтверждает «горький урок» компьютерных наук: при накоплении достаточного масштаба данных и параметров практически любая архитектура начинает показывать выдающиеся результаты .

🌕 Скандал с Samsung: «Нарисованная» Луна 8:55

В сообществе Reddit разгорелось обсуждение обвинения в адрес Samsung. Пользователь ibreakphotos предоставил доказательства того, что функция «Space Zoom» в смартфонах компании при съемке Луны является фейком .

Эксперимент был простым и наглядным :

  1. Исследователь взял качественное фото Луны и намеренно сильно размыл его в графическом редакторе, удалив все детали.
  2. Вывел это блюрное пятно на экран монитора.
  3. Сфотографировал экран на смартфон Samsung с большого расстояния.
  4. Смартфон выдал четкое изображение Луны с кратерами и текстурой, которых не было на мониторе.

По мнению Килчера, здесь работает не просто наложение статичной картинки, а высокоспециализированная модель супер-разрешения (Super Resolution), обученная исключительно на фотографиях Луны . Поскольку Луна всегда повернута к Земле одной стороной из-за приливного захвата, ИИ не нужно «галлюцинировать» общую структуру — он просто выучил единственно возможную текстуру . В результате смартфон фактически игнорирует входящий визуальный сигнал, если он похож на круглый белый объект, и подставляет изученную карту поверхности .

🛡️ Безопасность и открытость данных 16:51

В области этики и прозрачности данных появилось несколько важных инициатив.

Data Portraits — это предложенная исследователями концепция «портрета данных» на базе фильтров Блума . Она позволяет проверить, участвовал ли конкретный текст в обучении модели, не распространяя при этом сами терабайты обучающих данных. Размер такого «портрета» составляет всего около 3% от исходного датасета .

Hugging Face и строгие ограничения : Популярная платформа Hugging Face ввела функцию «gated models» — доступ к моделям только после одобрения автора или принятия определенных условий. Янник Килчер критикует это решение, цитируя Падме Амидалу из «Звездных войн»: «Так погибает свобода — под гром аплодисментов» . По его мнению, ограничения на использование противоречат духу Open Source, и поддержка таких механизмов платформой отдаляет индустрию от идеалов свободного обмена знаниями .

🏗️ Промпт-инжиниринг как новая дисциплина 22:07

Microsoft представила систему Visual ChatGPT, которая позволяет взаимодействовать с визуальными моделями (Stable Diffusion, ControlNet, BLIP) через текстовый чат . Пользователь может попросить: «Сгенерируй кота», а затем добавить: «Замени кота на собаку и удали книгу». Система сама вызывает нужные алгоритмы для обработки частей изображения.

Килчер подчеркивает, что развитие подобных инструментов легитимизирует профессию «промпт-инженера» . Теперь серьезные усилия тратятся не на написание кода, а на подбор точных фраз, которые заставят ансамбль нейросетей работать корректно .

🧠 Мультимодальность в робототехнике: PaLM-E 33:34

Google Research и TU Berlin представили PaLM-E — «воплощенную» (embodied) мультимодальную модель. Она интегрирует изображения, текст и данные с сенсоров робота в единое пространство токенов .

Благодаря этому робот может выполнять сложные инструкции в реальном мире, такие как «Принеси мне рисовые чипсы из ящика», даже если он никогда не видел именно эту пачку чипсов раньше . Система понимает геометрию пространства и может планировать траектории движения, опираясь на визуальные и текстовые подсказки одновременно.

🔬 Наука и медицина: первый коннектом насекомого 40:02

В завершение недели произошло историческое событие для нейронауки — была опубликована первая полная карта мозга насекомого (коннектом) . Это атлас, показывающий каждый нейрон и каждую связь между ними. По словам Килчера, это достижение на порядок сложнее предыдущих карт (например, круглых червей) и помогает науке лучше понять принципы работы биологического интеллекта, что в будущем может дать новые идеи и для ИИ .


💬 Цитаты

«Смартфон Samsung фактически игнорирует входящий сигнал и подставляет изученную карту поверхности Луны.»

Янник Килчер 13:18

«Это горький урок — при достаточном масштабе данных практически любая архитектура начинает показывать выдающиеся результаты.»

Янник Килчер 07:10
👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Коннектом
Полная карта связей между нейронами в организме.
GAN
Генеративно-состязательная сеть, где две нейросети — генератор и дискриминатор — соревнуются друг с другом.
Фильтр Блума
Вероятностная структура данных для быстрой проверки принадлежности элемента к множеству.
Мультимодальность
Способность модели ИИ работать одновременно с разными типами данных: текстом, изображениями и видео.
📊 Цифры
🗓 Хронология
  1. Март 2023 Анонс GPT-4 и презентация Office Copilot от Microsoft.
  2. 2014-2015 Расцвет GAN и начало PhD-исследований Янника Килчера.
  3. Март 2023 Опубликована первая полная карта мозга насекомого.
⚖️ Другая сторона
Искусственный интеллект GPT-4 Samsung Space Zoom Microsoft Copilot GigaGAN Hugging Face