Технологии искусственного интеллекта продолжают развиваться с ошеломляющей скоростью, стирая границы между виртуальным и реальным мирами. В свежем обзоре ИИ-энтузиаст и автор канала Уэс Рот (Wes Roth) анализирует последние достижения в области робототехники, генерации видео и автономных систем. Основное внимание уделено новым методам обучения роботов от NVIDIA и Apple, прорывам китайских разработчиков в создании реалистичных аватаров и стремительному росту капитализации компании Ильи Суцкевера Safe Superintelligence (SSI).
🤖 Робототехника: от атлетизма до домашних компаньонов 0:00
Исследователи из Университета Карнеги — Меллон (CMU) в сотрудничестве с NVIDIA представили ASAP — двухэтапную платформу для обучения гибкости гуманоидных роботов . Система сначала обучается на человеческих данных, а затем корректирует движения в реальном мире с помощью «модели дельта-действий», которая устраняет несоответствия между симуляцией и реальностью .
Демонстрация возможностей ASAP включает:
- Воспроизведение сложных движений атлетов (Криштиану Роналду, Коби Брайанта, Леброна Джеймса) .
- Отработку специфических навыков: прыжки в сторону, прыжки в длину, удары ногами .
- Выполнение сложных упражнений, таких как глубокие приседания с наклоном вперед .
Уэс Рот отмечает, что после тонкой настройки ASAP движения роботов становятся значительно более плавными и скоординированными .
Параллельно с этим Meta развивает проект Partner — открытую платформу для создания домашних роботов-компаньонов . По задумке разработчиков, такой робот сможет следовать за владельцем, выполнять команды и взаимодействовать с виртуальной реальностью. Одной из ключевых частей экосистемы стала Habitat 3.0 — 3D-симуляция, напоминающая игру The Sims, но предназначенная для обучения ИИ в реалистичных интерьерах со сканами реальных домов и сотнями тысяч объектов . По мнению автора, 2025 год станет «годом роботов» в индустрии ИИ .
🎬 Прорыв в ИИ-видео: ByteDance и Luma AI 3:00
Компания ByteDance (владелец TikTok) выпустила модель OmniHuman-1, которая специализируется на создании гиперреалистичных видео с людьми на основе одного изображения .
Ключевые особенности OmniHuman-1:
- Система Omni Conditions: позволяет масштабировать эмоциональные данные, улучшая реализм жестов и мимики .
- Универсальность: модель объединяет управление аудио, позами и референсными изображениями в единую структуру обучения .
- Эффективность: несмотря на сложность задач, модель остается легкой и быстрой .
Уэс Рот проводит аналогию с моделями DeepSeek, отмечая, что ограничение вычислительных мощностей (compute) в Китае часто становится «матерью изобретательности», заставляя разработчиков создавать более эффективные алгоритмы, чем в США . OmniHuman-1 способна анимировать не только фотографии, но и мультфильмы, стилизованных персонажей и даже антропоморфные объекты .
Другой крупный игрок, Luma AI, представил Ray 2 — обновленную версию своей видеомодели . По заявлениям разработчиков, Ray 2 обеспечивает естественное движение, реалистичную физику и беспрецедентную связность кадров (coherence) . Ведущий демонстрирует возможности модели на примере оживления классической живописи, исторических артефактов и мемов .
В ходе демонстрации Рот упоминает печальный факт: Кабосу, собака породы сиба-ину, ставшая лицом мема Doge, скончалась в 2024 году. Он в шутку замечает, что не хотел страдать от этой новости в одиночку и решил поделиться ею со зрителями .
🍏 Apple и «элегантные» роботы 7:25
Инженеры Apple работают над проектом под названием Elegant. Это концепция робототехники, сфокусированная не на гуманоидах, а на наделении повседневных предметов (например, настольных ламп) «характером» и экспрессией .
Принципы Elegant включают:
- Схожесть с культовой прыгающей лампой Pixar .
- Реакцию на жесты и эмоциональную отдачу.
- Демонстрацию «усилий»: если робот не может выполнить задачу, он не выдает ошибку, а имитирует огорчение .
Уэс Рот выражает опасение, что излишняя эмоциональность может быстро начать раздражать в быту, и предлагает Apple добавить режим «поторопись и просто сделай свою работу» для опытных пользователей .
Вторым важным анонсом от Apple стала публикация статьи «Robust autonomy emerges from self-play» . Исследователи создали Giga flow — масштабную симуляцию города (похожую на GTA), где 40 000 агентов (автомобилей, грузовиков, пешеходов) обучаются вождению методом самообучения (self-play) .
Масштабы Giga flow:
- 7,4 миллиона решений в секунду .
- Симуляция 1,6 миллиарда километров вождения .
- Возможность «прожить» 42 года водительского опыта за один час на узле из 8 графических процессоров (GPU) .
Удивительно, но по словам автора, агенты, обучавшиеся исключительно в симуляции без использования данных о вождении реальных людей, превзошли современные аналоги (SOTA) при тестировании в реальных сценариях . Это подтверждает тренд, заданный моделями AlphaGo Zero и DeepSeek R1: обучение через подкрепление (reinforcement learning) и самообучение часто оказываются эффективнее слепого копирования человеческих данных .
💰 Safe Superintelligence (SSI): оценка в $20 миллиардов 13:00
Компания Safe Superintelligence (SSI), основанная бывшим сооснователем OpenAI Ильей Суцкевером, продемонстрировала феноменальный рост капитализации. По имеющимся данным, компания сейчас оценивается в $20 миллиардов, что в четыре раза превышает её сентябрьскую оценку в $5 миллиардов .
В раунде финансирования участвовали такие гиганты, как Sequoia Capital, Andreessen Horowitz и DST Global . Примечательно, что SSI:
- Не генерирует выручку и не имеет готового продукта .
- Декларирует единственную цель — создание искусственного суперинтеллекта (ASI) .
- Изолирует себя от краткосрочного коммерческого давления («масштабирование в тишине») .
В то время как OpenAI и Anthropic смещают фокус на коммерциализацию (выручка OpenAI в прошлом году составила почти $4 млрд), Суцкевер предпочитает секретность, называя свой проект «новой горой, на которую предстоит взобраться» .
🎨 Новые инструменты редактирования: Pika и Kling 14:47
Завершают обзор новости от Pika Labs и Kuaishou. Pika анонсировала функцию Pika Editions — продвинутый инструмент видео-инпейнтинга (видеовставок) . Пользователи могут добавлять любые объекты в существующие видео: например, вставить бегущего тираннозавра в ролик с пляжа или гигантского паука на лицо спящего друга . Уэс Рот считает, что именно такие функции станут «киллер-фичей» для массового пользователя .
Китайский сервис Kling представил Kling Elements — модель, позволяющую объединять несколько изображений для генерации одного видео . Это дает возможность пользователям помещать себя в любые фантастические декорации, например, на борт «Тысячелетнего сокола» .
В конце видео Рот иронизирует над знаменитой фразой Хана Соло о том, что он прошел «Путь контрабандиста» (Kessel Run) менее чем за 12 парсеков. Автор напоминает, что парсек — это единица расстояния, а не времени, поэтому утверждение звучит так же нелепо, как «моя машина настолько быстрая, что доезжает до магазина менее чем за 5 миль» .