В новом обзоре Янник Килхер (Yannic Kilcher) анализирует стремительные изменения в индустрии искусственного интеллекта, произошедшие за одну неделю. В центре внимания — революционный видеогенератор Sora от OpenAI, расширение контекстного окна Gemini 1.5 от Google и новые архитектуры от Meta, которые сопровождаются амбициозными планами Сэма Альтмана по переустройству мирового рынка микрочипов.
🎥 Видеореволюция: Sora, Gemini 1.5 и V-JEPA 0:00
Начало 2024 года ознаменовалось выходом Sora — модели генерации видео по тексту от OpenAI . Результаты демонстрируют высокую реалистичность: от пролетов над городами до динамичных погонь, где сохраняется последовательность движения объектов. Янник Килхер отмечает наличие подозрений, что для генерации тренировочных данных OpenAI могли активно использовать игровые движки, хотя, по его мнению, данные с YouTube также сыграли ключевую роль .
Несмотря на технологический прорыв, Янник Килхер выражает скепсис относительно миссии OpenAI. Он считает, что компания всё дальше уходит от исследований сильного ИИ (AGI) в сторону коммерческих продуктов: «Это просто статистическое моделирование огромных массивов данных с помощью колоссальных вычислительных мощностей ради прибыли» . Стратегию OpenAI по постепенному допуску пользователей к Sora (через художников и дизайнеров) автор называет хитрым PR-ходом, цель которого — приучить общество к существованию неотличимого от реальности сгенерированного видео до того, как оно станет массовым .
Параллельно Google представила Gemini 1.5, ключевой особенностью которой стало контекстное окно в 1 миллион токенов . Это позволяет модели обрабатывать колоссальные объемы данных — от целых библиотек файлов до многочасовых видео, которые система разбивает на кадры для анализа .
Meta, в свою очередь, выпустила V-JEPA (Video Joint Embedding Predictive Architecture) — проект Яна Лекуна по самообучению нейросетей на видеоданных без участия человека . В отличие от генеративных моделей, V-JEPA фокусируется на понимании смысла происходящего в кадре через предсказание скрытых (латентных) переменных .
💰 Сэм Альтман и погоня за 7 триллионами долларов 6:46
Одной из самых обсуждаемых новостей стала информация о планах Сэма Альтмана привлечь инвестиции для создания собственной цепочки поставок чипов. Издание Wall Street Journal озвучило цифру в 7 триллионов долларов . Янник Килхер иронизирует, что теперь «7 триллионов» станет новым мемом в Кремниевой долине: «Если ваш посевной раунд меньше этой суммы, можете даже не пытаться» .
Основные факты проекта:
- Мировой рынок чипов сейчас оценивается всего в 0,5 трлн долларов .
- OpenAI планирует передать собранные средства компании TSMC для строительства и эксплуатации новых заводов .
- Цель — обеспечить OpenAI эксклюзивными поставками вычислительных мощностей.
Янник Килхер ставит под сомнение долгосрочную актуальность OpenAI. По его мнению, хотя сейчас компания сильна, нет никаких гарантий, что через 5 лет, когда заводы будут построены, она всё еще будет лидером рынка, так как «всё может закончиться быстрее, чем вы произнесете „open source“» .
🧠 Трудности нейминга Google и «эмоциональный труд» журналистов 11:29
Google продолжает запутывать пользователей ребрендингом своих ИИ-продуктов. Чат-бот Bard теперь называется Gemini . Иерархия продуктов выглядит следующим образом:
- Gemini — название модели и базового чат-бота (ранее Bard).
- Gemini Pro — модель среднего размера, доступная через API .
- Gemini Advanced — платная подписка (аналог ChatGPT Plus), работающая на модели Gemini Ultra 1.0 .
Янник Килхер критикует Google за неспособность создать понятную экосистему брендов, отмечая, что компания проваливает всё, кроме поисковой рекламы . Также он высмеивает статью в The Verge, автор которой пожаловался на «эмоциональный труд» при открытии приложения на смартфоне: «Как только кто-то всерьез использует термин „эмоциональный труд“ по отношению к нажатию кнопок, я прекращаю чтение» .
🛡️ Сатирический ИИ Goody-2 и утечки Mistral 13:58
Проект Goody-2 от арт-студии Brain.wtf высмеивает современные подходы к безопасности и этике ИИ . Эта модель отказывается отвечать на любые вопросы (даже «сколько будет 2+2»), объясняя это тем, что любой ответ может быть потенциально опасным, спорным или поддерживать «антропоцентрические системы» . Килхер отмечает, что это отличная карикатура на реальную работу специалистов по этике ИИ, с которой индустрия живет с 2019 года .
В это же время в сообществе обсуждалась утечка модели Miku 170b, которая оказалась квантованной версией ранней разработки Mistral . Руководство Mistral подтвердило, что их сотрудник по ошибке выложил в открытый доступ промежуточный рабочий продукт, созданный на базе Llama 2 . Вместо того чтобы гневаться, компания просто попросила указать авторство в репозитории .
🌐 Стратегия Марка Цукерберга и 340 тысяч GPU 18:25
Марк Цукерберг официально объявил, что новой целью Meta является создание AGI . Ключевые тезисы его позиции:
- К концу года Meta будет владеть 340 000 графических процессоров NVIDIA H100 .
- По масштабам вычислительных мощностей Meta может соперничать только с Microsoft .
- Открытость моделей (Llama) используется как инструмент для подрыва бизнеса конкурентов (OpenAI, Cohere), заставляя их снижать цены .
- Meta привлекает сторонних разработчиков в свою экосистему через open-source, что повышает лояльность к бренду .
🤖 Робототехника и общественная безопасность 21:42
Компания 1X (бывшая Halodi Robotics) представила видео с андроидами на колесах, которые выполняют бытовые задачи, ориентируясь исключительно с помощью видеокамер (без заранее прописанных траекторий) . Янник Килхер поражен прогрессом: роботы способны самостоятельно убирать вещи с пола .
В то же время в Лондоне тестируют системы видеонаблюдения с ИИ для выявления преступлений в метро . Система успешно фиксирует безбилетников, но сталкивается с проблемами: например, она не всегда отличает складной велосипед от обычного и ошибочно принимает детей, следующих за родителями, за нарушителей .
☢️ ИИ в военных играх: выбор в пользу ядерного удара 34:10
Исследователи из университетов, включая Стэнфорд, провели эксперимент по использованию LLM в геополитических симуляциях (Wargaming) . В критических ситуациях модели (такие как GPT-4) неоднократно выбирали применение ядерного оружия . Килхер призывает не паниковать: «Это просто игра. В стратегических играх люди тоже часто используют ядерные удары для победы, и модели лишь копируют это поведение» . Проблема не в «кровожадности» ИИ, а в том, как его программируют и какие задачи ставят.
🏛️ Научные открытия и курьезные применения 39:53
С помощью компьютерного зрения удалось расшифровать первые пассажи сожженных свитков из Геркуланума . Ученые использовали КТ-сканирование для поиска микроскопических вмятин, оставленных пером на папирусе, что позволило прочитать текст, не разворачивая хрупкие артефакты .
Другой пример технического мастерства — исследование студента по имени Чунг Тоонг, который с помощью ИИ и кропотливого фотографирования реконструировал измельченные банкноты из сувенирных пресс-папье, купленных в Гонконге . Потенциально такая технология позволяет «восстановить» купюр на сумму до 138 000 долларов, после чего их можно обменять в банке на новые .
🔧 Новые инструменты для разработчиков 1:15:10
Янник Килхер выделил несколько важных технических релизов:
- MergeKit: Библиотека для «модельной алхимии» — слияния слоев разных нейросетей без дообучения .
- Nanotron: Инструмент для сверхмасштабируемого 3D-параллельного обучения .
- Nomic Embed: Полностью открытая и воспроизводимая модель эмбеддингов с контекстом в 8000 токенов .
- Stable LM 2 1.6B: Компактная модель от Stability AI, которая, по утверждению компании, не уступает более крупным аналогам .
В завершение обзора Янник Килхер упоминает статью о влиянии длины цепочки рассуждений на качество ответов ИИ. Его ироничный вывод: «Можно улучшить логику модели, просто приказав ей делать больше шагов. Совсем как с людьми» .