# От HeyGen до Figure AI: как нейросети захватывают смартфоны и заводы

Источник: https://www.youtube.com/watch?v=E4nJcE2lPcs
Канал: Wes Roth
Опубликовано: 20.11.2024

---

В мире искусственного интеллекта и робототехники наступил этап, когда граница между виртуальным и реальным окончательно размывается. Автор канала Вес Рот (Wes Roth) представляет обзор последних достижений в области создания цифровых аватаров, автономных гуманоидных роботов и перспективных функций видеоаналитики от крупнейших технологических компаний.

## 📱 HeyGen: Голливудская студия в вашем кармане
[[JUMP:0:00]]

Компания HeyGen, известная своими технологиями генерации видеоаватаров, объявила о выходе официального приложения для iOS [0:14]. Это событие знаменует переход профессиональных инструментов ИИ-продакшена в категорию доступных мобильных решений.

Ранее для работы с сервисом требовались определенные навыки и доступ к веб-интерфейсу, однако теперь пользователи могут создавать «поразительные видео» прямо со смартфона [0:39]. Основные возможности платформы:

*   **Генерация аватаров:** возможность создавать цифровых двойников на основе текста или аудиозаписей [0:26].
*   **Перевод видео:** технология поддерживает более 175 языков, сохраняя при этом оригинальный голос и манеру речи пользователя [1:19].
*   **Персонализация:** в приложении можно обучить модель на собственных фотографиях или видео, чтобы создать реалистичную цифровую копию самого себя [2:13].

Вес Рот отмечает, что хотя европейские языки звучат в исполнении ИИ феноменально, качество перевода на тайский или вьетнамский может быть ниже [1:45]. Также ведущий обращает внимание на небольшие «ИИ-артефакты» — странные мимические движения или рассинхронизацию губ в моменты пауз между словами [2:39].

## 🤖 Figure AI: Роботы на производстве BMW
[[JUMP:3:32]]

Компания Figure AI представила отчет о работе своего гуманоидного робота Figure 02 на заводе BMW. По утверждению разработчиков, автономный флот роботов выполняет задачи в семь раз успешнее и в 400 раз быстрее, чем в предыдущих итерациях [3:48].

Важнейшей особенностью новых моделей является использование алгоритмов «Vision Only» (только зрение) [6:37]. По мнению Веса Рота, индустрия отходит от использования дорогих лазерных датчиков и сонаров в пользу обучения нейросетей на видеоданных, аналогично тому, как человек воспринимает мир глазами [7:40].

### Ключевые показатели Figure 02:

*   Выполнение «длинных горизонтов задач» (сложных последовательных действий) [6:37].
*   Точность вставки тонких листов металла — менее 1 см [6:50].
*   Способность совершать до 1000 успешных манипуляций в день [6:37].

Ведущий подчеркивает, что Figure активно сотрудничает с OpenAI в вопросах голосового управления и привлекает таланты из робототехнических команд Google [4:02].

## 🧠 Окулография и управление мыслями: Проект GripMind
[[JUMP:11:07]]

Технологии взаимодействия человека и машины выходят на новый уровень. Вес Рот демонстрирует примеры использования ИИ для создания «виртуальных замен» на видеозвонках. Проект Pickle позволяет генерировать реальное видео говорящего человека в Zoom на основе только аудиовхода, что избавляет пользователя от необходимости фактически находиться перед камерой [11:20].

Более впечатляющим выглядит проект GripMind, представленный на хакатоне Meta. Используя электроэнцефалограмму (ЭЭГ) для считывания сигнатур мозга, разработчики научили систему управлять манипулятором робота [12:37]. Оператор может открывать, закрывать хват или перемещать механическую руку, просто концентрируясь на определенных концепциях или эмоциях (например, гневе) [12:51].

Вес Рот проводит аналогию с пациентом Neuralink, который, будучи парализованным ниже шеи, смог играть в Mario Kart и Civilization, просто представляя движение курсора [11:58].

## 👁️ OpenAI и Google: Гонка видеоаналитики
[[JUMP:13:34]]

Ожидается, что OpenAI вскоре развернет функцию «живого видео» для ChatGPT. В коде последних обновлений найдены упоминания возможности использования камеры для интерактивного общения с чат-ботом в реальном времени [14:38].

В качестве примера Вес Рот показывает видео (вероятно, из ранних тестов), где ИИ реагирует на котенка в комнате, дает советы по уходу и описывает обстановку [15:16]. Аналогичный проект от Google — Astra — был анонсирован на Google IO, но до сих пор не стал общедоступным [16:24]. Возможности Astra включают:

*   Идентификацию объектов (например, элементов акустической колонки) [16:51].
*   Анализ кода на экране монитора [17:29].
*   Определение местоположения по виду из окна [17:42].
*   Поиск забытых вещей (например, очков на столе) [17:55].

## 🎨 Искусство дипфейков: «Обед мировых лидеров»
[[JUMP:18:50]]

В завершение обзора Вес Рот демонстрирует работу студии The Dor Brothers. С помощью нейросетей они создали музыкальный клип, в котором мировые лидеры и технологические гиганты — Владимир Путин, Илон Маск, Марк Цукерберг и Хиллари Клинтон — представлены как члены одной большой семьи, сидящей за общим столом [18:50].

Видео демонстрирует невероятный уровень детализации и реализма, который доступен современному ИИ. По мнению ведущего, подобные работы показывают, насколько мощными стали инструменты визуального контента, способные создавать убедительные, хотя и полностью вымышленные сцены [19:18].