Вирусный тренд «гиблификации» (превращения обычных фото в кадры в стиле легендарной анимационной студии) захлестнул социальные сети после выхода новой мультимодальной модели GPT-4o от OpenAI. Ведущий канала Wes Roth анализирует, почему этот безобидный на первый взгляд феномен стал критическим испытанием для инфраструктуры компании, как ИИ научился понимать объем без обучения 3D-графике и почему OpenAI сознательно выбрала эстетику Хаяо Миядзаки в качестве «мягкой силы» для запуска своих самых «развязных» технологий.
🌡️ «Плавящиеся» серверы и дефицит мощностей 0:00
Запуск GPT-4o (где «о» означает Omni — всеохватывающий) вызвал беспрецедентный наплыв пользователей, желающих протестировать генерацию изображений . Новая модель обучена не только на тексте, но и на звуке и визуальных данных одновременно, что позволяет ей создавать контент с поразительной точностью. По словам Уэса Рота, спрос оказался настолько велик, что OpenAI была вынуждена ограничить доступ .
Основные факты о текущем состоянии сервиса:
- GPU в критическом режиме: Сэм Альтман подтвердил в соцсетях, что графические процессоры компании буквально «плавятся» от нагрузки .
- Приоритет платным подписчикам: На данный момент полноценный доступ к новым функциям генерации имеют только пользователи платных тарифных планов.
- Ограничения для Free-типа: В ближайшее время пользователям бесплатной версии планируют разрешить всего три генерации изображений в день .
⚖️ Фейковые иски и реальные споры об авторском праве 1:32
В разгар тренда в Twitter завирусился пост пользователя, утверждавшего, что он получил официальное уведомление (Cease and Desist) от Studio Ghibli с требованием прекратить использование их интеллектуальной собственности . Автор поста называл себя «мучеником во имя воображения» и призывал юристов к борьбе.
Однако, как отмечает Уэс Рот, при ближайшем рассмотрении письмо оказалось виртуозным троллингом:
- Признаки подделки: Номера телефонов, URL-адреса и данные компании в письме были вымышленными .
- Ироничное происхождение: По мнению ведущего, само «грозное» письмо, скорее всего, было сгенерировано с помощью ChatGPT .
- Реакция сообщества: Несмотря на очевидный фейк, инцидент вызвал волну агрессии в сторону «автора», которого обвиняли в воровстве стиля и попытке нажиться на чужом труде .
Уэс Рот подчеркивает, что по его мнению, чтение книг или просмотр картин машиной не является нарушением авторских прав, так как индексация данных поисковыми роботами (Google или Bing) давно считается нормой . По словам автора, нарушение происходит только в момент прямого воспроизведения защищенного контента для коммерческой выгоды .
🧠 Технический прорыв: от рекурсии до квантовой физики 3:02
Способность GPT-4o работать с текстом внутри изображений вышла на новый уровень. Основатель Shopify продемонстрировал возможности модели, создав детализированные интерфейсы и сложные визуальные концепции .
Интересные примеры использования:
- Рекурсия Wikipedia: Модель создала страницу Википедии о рекурсии, где на скриншоте была та же страница, уходящая в бесконечность. Текст оставался читаемым и корректным на первых нескольких уровнях вложенности .
- Гипотеза Римана: Один из пользователей в шутку сгенерировал изображение доски с «решенной» гипотезой Римана .
- Исправление Нобелевской премии: Модель перерисовала официальный плакат Нобелевской премии по физике 2024 года, добавив туда Юргена Шмидхубера, чьи заслуги, по мнению части научного сообщества, были проигнорированы .
📐 Как ИИ «понимает» 3D-пространство 8:35
Одним из самых удивительных свойств GPT-4o стала способность генерировать карты глубины (depth maps) . Это означает, что нейросеть понимает, какие объекты находятся на переднем плане, а какие — на заднем, хотя её обучали на плоских 2D-картинках.
Ведущий ссылается на исследование Гарвардского университета «Beyond Surface Statistics» (За пределами статистики поверхности), которое объясняет этот феномен:
- Неявное обучение: В процессе обучения созданию связных изображений нейросеть вынуждена самостоятельно вырабатывать внутренние модели освещения, теней и трехмерного пространства .
- Линейные зонды: Исследователи использовали специальные методы («linear probes»), чтобы «заглянуть в мозг» модели и обнаружили там сформированное представление о глубине, которое ей никто специально не прививал .
- Практическое применение: Благодаря этому модель может создавать спрайты для видеоигр (например, вращающиеся монеты), которые можно сразу внедрять в игровые движки .
🌸 Стратегия OpenAI: «Стиль Миядзаки» как щит 18:11
Уэс Рот обсуждает мнение аналитика Гранта Слейтона о том, что OpenAI невероятно повезло (или это был расчет), что первым вирусным трендом стал именно добрый стиль Studio Ghibli, а не «ужасающие дипфейки» .
По словам ведущего, GPT-4o технически гораздо более «развязана» (unhinged), чем предыдущие модели. Сотрудница отдела безопасности OpenAI в своем блоге подтвердила изменение подхода к «гардам» (защитным фильтрам) :
- Отказ от тотальных запретов: Модель теперь реже дает стандартные отказы на спорные промты.
- Позитивный вайб: Сэм Альтман признал, что OpenAI тщательно выбирала примеры для презентации, и селфи в стиле аниме было ключевой частью демо-версии .
- Смягчение негатива: Уэс Рот полагает, что эстетика Миядзаки «смягчает» даже хоррор-сцены, делая технологию более приемлемой для широкой публики в период, когда опасения по поводу дипфейков растут .
🎞️ Мнение Хаяо Миядзаки об ИИ 15:49
В завершение статьи стоит упомянуть позицию самого основателя Studio Ghibli. Хотя обсуждение в видео ведется в контексте 2024 года, Уэс Рот напоминает о знаменитом инциденте 2016 года, когда Миядзаки показали ранние наработки ИИ-анимации . Тогда великий аниматор назвал это «оскорблением самой жизни» и заявил, что «чувствует, что конец света близок», если люди собираются заменить человеческие усилия такими машинами. Впрочем, автор видео отмечает, что с тех пор технологии изменились до неузнаваемости.