От 7 триллионов Альтмана до ядерных ударов GPT-4: большой обзор новостей ИИ от Янника Килхера

Yannic Kilcher 32,7 тыс. 1 ч 24 мин 6 мин 18.02.2024
Главное

В новом обзоре Янник Килхер (Yannic Kilcher) анализирует стремительные изменения в индустрии искусственного интеллекта, произошедшие за одну неделю. В центре внимания — революционный видеогенератор Sora от OpenAI, расширение контекстного окна Gemini 1.5 от Google и новые архитектуры от Meta, которые сопровождаются амбициозными планами Сэма Альтмана по переустройству мирового рынка микрочипов.

🎥 Видеореволюция: Sora, Gemini 1.5 и V-JEPA 0:00

Начало 2024 года ознаменовалось выходом Sora — модели генерации видео по тексту от OpenAI . Результаты демонстрируют высокую реалистичность: от пролетов над городами до динамичных погонь, где сохраняется последовательность движения объектов. Янник Килхер отмечает наличие подозрений, что для генерации тренировочных данных OpenAI могли активно использовать игровые движки, хотя, по его мнению, данные с YouTube также сыграли ключевую роль .

Несмотря на технологический прорыв, Янник Килхер выражает скепсис относительно миссии OpenAI. Он считает, что компания всё дальше уходит от исследований сильного ИИ (AGI) в сторону коммерческих продуктов: «Это просто статистическое моделирование огромных массивов данных с помощью колоссальных вычислительных мощностей ради прибыли» . Стратегию OpenAI по постепенному допуску пользователей к Sora (через художников и дизайнеров) автор называет хитрым PR-ходом, цель которого — приучить общество к существованию неотличимого от реальности сгенерированного видео до того, как оно станет массовым .

Параллельно Google представила Gemini 1.5, ключевой особенностью которой стало контекстное окно в 1 миллион токенов . Это позволяет модели обрабатывать колоссальные объемы данных — от целых библиотек файлов до многочасовых видео, которые система разбивает на кадры для анализа .

Meta, в свою очередь, выпустила V-JEPA (Video Joint Embedding Predictive Architecture) — проект Яна Лекуна по самообучению нейросетей на видеоданных без участия человека . В отличие от генеративных моделей, V-JEPA фокусируется на понимании смысла происходящего в кадре через предсказание скрытых (латентных) переменных .

💰 Сэм Альтман и погоня за 7 триллионами долларов 6:46

Одной из самых обсуждаемых новостей стала информация о планах Сэма Альтмана привлечь инвестиции для создания собственной цепочки поставок чипов. Издание Wall Street Journal озвучило цифру в 7 триллионов долларов . Янник Килхер иронизирует, что теперь «7 триллионов» станет новым мемом в Кремниевой долине: «Если ваш посевной раунд меньше этой суммы, можете даже не пытаться» .

Основные факты проекта:

Янник Килхер ставит под сомнение долгосрочную актуальность OpenAI. По его мнению, хотя сейчас компания сильна, нет никаких гарантий, что через 5 лет, когда заводы будут построены, она всё еще будет лидером рынка, так как «всё может закончиться быстрее, чем вы произнесете „open source“» .

🧠 Трудности нейминга Google и «эмоциональный труд» журналистов 11:29

Google продолжает запутывать пользователей ребрендингом своих ИИ-продуктов. Чат-бот Bard теперь называется Gemini . Иерархия продуктов выглядит следующим образом:

  1. Gemini — название модели и базового чат-бота (ранее Bard).
  2. Gemini Pro — модель среднего размера, доступная через API .
  3. Gemini Advanced — платная подписка (аналог ChatGPT Plus), работающая на модели Gemini Ultra 1.0 .

Янник Килхер критикует Google за неспособность создать понятную экосистему брендов, отмечая, что компания проваливает всё, кроме поисковой рекламы . Также он высмеивает статью в The Verge, автор которой пожаловался на «эмоциональный труд» при открытии приложения на смартфоне: «Как только кто-то всерьез использует термин „эмоциональный труд“ по отношению к нажатию кнопок, я прекращаю чтение» .

🛡️ Сатирический ИИ Goody-2 и утечки Mistral 13:58

Проект Goody-2 от арт-студии Brain.wtf высмеивает современные подходы к безопасности и этике ИИ . Эта модель отказывается отвечать на любые вопросы (даже «сколько будет 2+2»), объясняя это тем, что любой ответ может быть потенциально опасным, спорным или поддерживать «антропоцентрические системы» . Килхер отмечает, что это отличная карикатура на реальную работу специалистов по этике ИИ, с которой индустрия живет с 2019 года .

В это же время в сообществе обсуждалась утечка модели Miku 170b, которая оказалась квантованной версией ранней разработки Mistral . Руководство Mistral подтвердило, что их сотрудник по ошибке выложил в открытый доступ промежуточный рабочий продукт, созданный на базе Llama 2 . Вместо того чтобы гневаться, компания просто попросила указать авторство в репозитории .

🌐 Стратегия Марка Цукерберга и 340 тысяч GPU 18:25

Марк Цукерберг официально объявил, что новой целью Meta является создание AGI . Ключевые тезисы его позиции:

🤖 Робототехника и общественная безопасность 21:42

Компания 1X (бывшая Halodi Robotics) представила видео с андроидами на колесах, которые выполняют бытовые задачи, ориентируясь исключительно с помощью видеокамер (без заранее прописанных траекторий) . Янник Килхер поражен прогрессом: роботы способны самостоятельно убирать вещи с пола .

В то же время в Лондоне тестируют системы видеонаблюдения с ИИ для выявления преступлений в метро . Система успешно фиксирует безбилетников, но сталкивается с проблемами: например, она не всегда отличает складной велосипед от обычного и ошибочно принимает детей, следующих за родителями, за нарушителей .

☢️ ИИ в военных играх: выбор в пользу ядерного удара 34:10

Исследователи из университетов, включая Стэнфорд, провели эксперимент по использованию LLM в геополитических симуляциях (Wargaming) . В критических ситуациях модели (такие как GPT-4) неоднократно выбирали применение ядерного оружия . Килхер призывает не паниковать: «Это просто игра. В стратегических играх люди тоже часто используют ядерные удары для победы, и модели лишь копируют это поведение» . Проблема не в «кровожадности» ИИ, а в том, как его программируют и какие задачи ставят.

🏛️ Научные открытия и курьезные применения 39:53

С помощью компьютерного зрения удалось расшифровать первые пассажи сожженных свитков из Геркуланума . Ученые использовали КТ-сканирование для поиска микроскопических вмятин, оставленных пером на папирусе, что позволило прочитать текст, не разворачивая хрупкие артефакты .

Другой пример технического мастерства — исследование студента по имени Чунг Тоонг, который с помощью ИИ и кропотливого фотографирования реконструировал измельченные банкноты из сувенирных пресс-папье, купленных в Гонконге . Потенциально такая технология позволяет «восстановить» купюр на сумму до 138 000 долларов, после чего их можно обменять в банке на новые .

🔧 Новые инструменты для разработчиков 1:15:10

Янник Килхер выделил несколько важных технических релизов:

В завершение обзора Янник Килхер упоминает статью о влиянии длины цепочки рассуждений на качество ответов ИИ. Его ироничный вывод: «Можно улучшить логику модели, просто приказав ей делать больше шагов. Совсем как с людьми» .

💬 Цитаты

«Если ваш посевной раунд меньше 7 триллионов долларов — идите домой, даже не пытайтесь.»

Янник Килхер 9:21

«Стратегия открытого ПО от Meta используется для того, чтобы подорвать бизнес конкурентов, таких как OpenAI.»

Янник Килхер 19:00

«Можно улучшить логику модели, просто приказав ей делать больше шагов.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Sora
Модель ИИ от OpenAI для генерации видео по текстовому описанию.
V-JEPA
Архитектура Meta для обучения пониманию видео без учителя через предсказание скрытых состояний.
Контекстное окно
Объем данных (текста, кода, кадров), который модель может удерживать в памяти одновременно для анализа.
H100
Флагманский графический процессор NVIDIA, используемый для обучения крупнейших нейросетей.
RAG (Retrieval-Augmented Generation)
Технология, позволяющая модели искать информацию во внешних источниках перед генерацией ответа.
📊 Цифры
🗓 Хронология
  1. Февраль 2024 Релиз Sora от OpenAI и Gemini 1.5 от Google.
  2. Конец 2024 Ожидаемый срок формирования флота из 340 тыс. GPU H100 в распоряжении Meta.
  3. 2019 Период, когда, по мнению автора, началось активное влияние «этики ИИ» на индустрию.
⚖️ Другая сторона
Искусственный интеллект Yannic Kilcher OpenAI Sora Gemini 1.5 V-JEPA Sam Altman