От HeyGen до Figure AI: как нейросети захватывают смартфоны и заводы

Wes Roth 47,9 тыс. 22 мин 3 мин 20.11.2024
Главное

В мире искусственного интеллекта и робототехники наступил этап, когда граница между виртуальным и реальным окончательно размывается. Автор канала Вес Рот (Wes Roth) представляет обзор последних достижений в области создания цифровых аватаров, автономных гуманоидных роботов и перспективных функций видеоаналитики от крупнейших технологических компаний.

📱 HeyGen: Голливудская студия в вашем кармане 0:00

Компания HeyGen, известная своими технологиями генерации видеоаватаров, объявила о выходе официального приложения для iOS . Это событие знаменует переход профессиональных инструментов ИИ-продакшена в категорию доступных мобильных решений.

Ранее для работы с сервисом требовались определенные навыки и доступ к веб-интерфейсу, однако теперь пользователи могут создавать «поразительные видео» прямо со смартфона . Основные возможности платформы:

Вес Рот отмечает, что хотя европейские языки звучат в исполнении ИИ феноменально, качество перевода на тайский или вьетнамский может быть ниже . Также ведущий обращает внимание на небольшие «ИИ-артефакты» — странные мимические движения или рассинхронизацию губ в моменты пауз между словами .

🤖 Figure AI: Роботы на производстве BMW 3:32

Компания Figure AI представила отчет о работе своего гуманоидного робота Figure 02 на заводе BMW. По утверждению разработчиков, автономный флот роботов выполняет задачи в семь раз успешнее и в 400 раз быстрее, чем в предыдущих итерациях .

Важнейшей особенностью новых моделей является использование алгоритмов «Vision Only» (только зрение) . По мнению Веса Рота, индустрия отходит от использования дорогих лазерных датчиков и сонаров в пользу обучения нейросетей на видеоданных, аналогично тому, как человек воспринимает мир глазами .

Ключевые показатели Figure 02:

Ведущий подчеркивает, что Figure активно сотрудничает с OpenAI в вопросах голосового управления и привлекает таланты из робототехнических команд Google .

🧠 Окулография и управление мыслями: Проект GripMind 11:07

Технологии взаимодействия человека и машины выходят на новый уровень. Вес Рот демонстрирует примеры использования ИИ для создания «виртуальных замен» на видеозвонках. Проект Pickle позволяет генерировать реальное видео говорящего человека в Zoom на основе только аудиовхода, что избавляет пользователя от необходимости фактически находиться перед камерой .

Более впечатляющим выглядит проект GripMind, представленный на хакатоне Meta. Используя электроэнцефалограмму (ЭЭГ) для считывания сигнатур мозга, разработчики научили систему управлять манипулятором робота . Оператор может открывать, закрывать хват или перемещать механическую руку, просто концентрируясь на определенных концепциях или эмоциях (например, гневе) .

Вес Рот проводит аналогию с пациентом Neuralink, который, будучи парализованным ниже шеи, смог играть в Mario Kart и Civilization, просто представляя движение курсора .

👁️ OpenAI и Google: Гонка видеоаналитики 13:34

Ожидается, что OpenAI вскоре развернет функцию «живого видео» для ChatGPT. В коде последних обновлений найдены упоминания возможности использования камеры для интерактивного общения с чат-ботом в реальном времени .

В качестве примера Вес Рот показывает видео (вероятно, из ранних тестов), где ИИ реагирует на котенка в комнате, дает советы по уходу и описывает обстановку . Аналогичный проект от Google — Astra — был анонсирован на Google IO, но до сих пор не стал общедоступным . Возможности Astra включают:

🎨 Искусство дипфейков: «Обед мировых лидеров» 18:50

В завершение обзора Вес Рот демонстрирует работу студии The Dor Brothers. С помощью нейросетей они создали музыкальный клип, в котором мировые лидеры и технологические гиганты — Владимир Путин, Илон Маск, Марк Цукерберг и Хиллари Клинтон — представлены как члены одной большой семьи, сидящей за общим столом .

Видео демонстрирует невероятный уровень детализации и реализма, который доступен современному ИИ. По мнению ведущего, подобные работы показывают, насколько мощными стали инструменты визуального контента, способные создавать убедительные, хотя и полностью вымышленные сцены .

💬 Цитаты

«Android-пользователи — это граждане второго сорта в иерархии жизни, мы получаем всё позже.»

«Можно ли представить управление армией роботов силой мысли? Согласен, это впечатляет.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Vision Only
Подход в робототехнике, при котором машина ориентируется в пространстве только с помощью видеокамер, без лидаров или радаров.
AI Artifact
Визуальные искажения или неестественные детали в контенте, созданном нейросетью.
Teleoperation
Дистанционное управление роботом человеком (часто через VR), используемое для сбора обучающих данных.
📊 Цифры
🗓 Хронология
  1. Август 2024 Выход приложения HeyGen на iOS.
  2. Май 2024 Анонс Google Astra на конференции Google IO.
  3. 2024 Начало эксплуатации роботов Figure 02 на заводе BMW в Спартанбурге.
⚖️ Другая сторона
Искусственный интеллект HeyGen Figure AI OpenAI Google Astra Neuralink