В мире искусственного интеллекта и робототехники наступил этап, когда граница между виртуальным и реальным окончательно размывается. Автор канала Вес Рот (Wes Roth) представляет обзор последних достижений в области создания цифровых аватаров, автономных гуманоидных роботов и перспективных функций видеоаналитики от крупнейших технологических компаний.
📱 HeyGen: Голливудская студия в вашем кармане 0:00
Компания HeyGen, известная своими технологиями генерации видеоаватаров, объявила о выходе официального приложения для iOS . Это событие знаменует переход профессиональных инструментов ИИ-продакшена в категорию доступных мобильных решений.
Ранее для работы с сервисом требовались определенные навыки и доступ к веб-интерфейсу, однако теперь пользователи могут создавать «поразительные видео» прямо со смартфона . Основные возможности платформы:
- Генерация аватаров: возможность создавать цифровых двойников на основе текста или аудиозаписей .
- Перевод видео: технология поддерживает более 175 языков, сохраняя при этом оригинальный голос и манеру речи пользователя .
- Персонализация: в приложении можно обучить модель на собственных фотографиях или видео, чтобы создать реалистичную цифровую копию самого себя .
Вес Рот отмечает, что хотя европейские языки звучат в исполнении ИИ феноменально, качество перевода на тайский или вьетнамский может быть ниже . Также ведущий обращает внимание на небольшие «ИИ-артефакты» — странные мимические движения или рассинхронизацию губ в моменты пауз между словами .
🤖 Figure AI: Роботы на производстве BMW 3:32
Компания Figure AI представила отчет о работе своего гуманоидного робота Figure 02 на заводе BMW. По утверждению разработчиков, автономный флот роботов выполняет задачи в семь раз успешнее и в 400 раз быстрее, чем в предыдущих итерациях .
Важнейшей особенностью новых моделей является использование алгоритмов «Vision Only» (только зрение) . По мнению Веса Рота, индустрия отходит от использования дорогих лазерных датчиков и сонаров в пользу обучения нейросетей на видеоданных, аналогично тому, как человек воспринимает мир глазами .
Ключевые показатели Figure 02:
- Выполнение «длинных горизонтов задач» (сложных последовательных действий) .
- Точность вставки тонких листов металла — менее 1 см .
- Способность совершать до 1000 успешных манипуляций в день .
Ведущий подчеркивает, что Figure активно сотрудничает с OpenAI в вопросах голосового управления и привлекает таланты из робототехнических команд Google .
🧠 Окулография и управление мыслями: Проект GripMind 11:07
Технологии взаимодействия человека и машины выходят на новый уровень. Вес Рот демонстрирует примеры использования ИИ для создания «виртуальных замен» на видеозвонках. Проект Pickle позволяет генерировать реальное видео говорящего человека в Zoom на основе только аудиовхода, что избавляет пользователя от необходимости фактически находиться перед камерой .
Более впечатляющим выглядит проект GripMind, представленный на хакатоне Meta. Используя электроэнцефалограмму (ЭЭГ) для считывания сигнатур мозга, разработчики научили систему управлять манипулятором робота . Оператор может открывать, закрывать хват или перемещать механическую руку, просто концентрируясь на определенных концепциях или эмоциях (например, гневе) .
Вес Рот проводит аналогию с пациентом Neuralink, который, будучи парализованным ниже шеи, смог играть в Mario Kart и Civilization, просто представляя движение курсора .
👁️ OpenAI и Google: Гонка видеоаналитики 13:34
Ожидается, что OpenAI вскоре развернет функцию «живого видео» для ChatGPT. В коде последних обновлений найдены упоминания возможности использования камеры для интерактивного общения с чат-ботом в реальном времени .
В качестве примера Вес Рот показывает видео (вероятно, из ранних тестов), где ИИ реагирует на котенка в комнате, дает советы по уходу и описывает обстановку . Аналогичный проект от Google — Astra — был анонсирован на Google IO, но до сих пор не стал общедоступным . Возможности Astra включают:
- Идентификацию объектов (например, элементов акустической колонки) .
- Анализ кода на экране монитора .
- Определение местоположения по виду из окна .
- Поиск забытых вещей (например, очков на столе) .
🎨 Искусство дипфейков: «Обед мировых лидеров» 18:50
В завершение обзора Вес Рот демонстрирует работу студии The Dor Brothers. С помощью нейросетей они создали музыкальный клип, в котором мировые лидеры и технологические гиганты — Владимир Путин, Илон Маск, Марк Цукерберг и Хиллари Клинтон — представлены как члены одной большой семьи, сидящей за общим столом .
Видео демонстрирует невероятный уровень детализации и реализма, который доступен современному ИИ. По мнению ведущего, подобные работы показывают, насколько мощными стали инструменты визуального контента, способные создавать убедительные, хотя и полностью вымышленные сцены .