Rabbit R1 в деталях: «Живая» презентация ИИ-переводчика и режима обучения от Джесси Лю

Wes Roth 40,2 тыс. 47 мин 4 мин 24.04.2024
Главное

Презентация Rabbit R1 стала одним из самых обсуждаемых технологических событий года. Основатель и генеральный директор стартапа Rabbit, Джесси Лю (Jesse Lyu), провел «живую» демонстрацию устройства, чтобы показать возможности гаджета, который позиционируется как первый в мире «ИИ-нативный» карманный компьютер, способный заменить привычные интерфейсы смартфонов.

📱 Дизайн и интерфейс Rabbit R1 0:00

Джесси Лю начал презентацию с демонстрации физического устройства, подчеркнув, что реальный цвет Rabbit R1 превосходит ожидания, которые могли сложиться по видео в Discord . Одной из ключевых особенностей гаджета является его необычная система управления, сочетающая современный ИИ и аналоговые элементы.

Технические и дизайнерские решения:

Интересной деталью является чехол устройства, который одновременно служит подставкой, превращая R1 в миниатюрный «сайбердек» на рабочем столе . По словам Джесси Лю, он часто использует R1 вместе с портативной Bluetooth-клавиатурой как выделенное ИИ-устройство, которое не отвлекает его от основного монитора .

🧠 От понимания языка (LLM) к пониманию действий (LAM) 18:01

Центральным элементом Rabbit R1 является не просто языковая модель, а Large Action Model (LAM) — модель больших действий. Джесси Лю настаивает, что в отличие от обычных чат-ботов, LAM способна напрямую взаимодействовать с интерфейсами приложений .

Ключевой функционал LAM на сегодняшний день:

  1. Музыка: Прямое управление Spotify. Синхронизация происходит мгновенно: если запустить музыку на R1, она отобразится в приложении на компьютере или в системе CarPlay, и наоборот .
  2. Заказ еды: Интеграция с DoorDash позволяет заказывать конкретные блюда (например, из McDonald’s) голосом . Лю признает, что скорость загрузки меню в DoorDash пока не идеальна из-за тяжелого интерфейса самого сервиса, но подчеркивает, что система работает без использования API или SDK .
  3. Такси: Заказ поездок через Uber. Устройство запрашивает четырехзначный PIN-код для подтверждения оплаты, обеспечивая безопасность финансовых транзакций .
  4. Генерация изображений: В R1 интегрирована модель Mid Journey. Пользователь может отправить промпт голосом, и ИИ через Discord-интерфейс сгенерирует изображение, которое будет выведено на экран гаджета .

Джесси Лю опроверг слухи о «утечке исходного кода», пояснив, что компания намеренно открыла часть интерфейса Rabbit Hole (облачного хаба) заранее, тогда как сама модель LAM находится на защищенных серверах компании .

👁️ Видение и продвинутая обработка данных 3:22

Функция AI Vision превращает камеру устройства в своего рода «Покедекс» (Pokedex) из реальной жизни . Камера способна не только распознавать объекты, но и анализировать сложные данные.

Примеры работы камеры:

Кроме того, была представлена функция двустороннего перевода . В отличие от классических переводчиков, R1 автоматически определяет язык и позволяет вести свободный диалог без необходимости переключать направление перевода вручную .

🎤 Заметки и Rabbit Hole 12:56

Все взаимодействия с устройством синхронизируются в Rabbit Hole — персональном облачном портале пользователя.

🚀 Будущее: Режим обучения и LAM 1.5 32:13

Самая амбициозная часть проекта — Teach Mode (Режим обучения). Это система, в которой пользователь может «научить» ИИ выполнять новые действия, просто показав их на экране компьютера .

Планы по развитию Teach Mode:

  1. Закрытая альфа: Сначала доступ получат избранные пользователи для тестирования безопасности .
  2. Белый список: Обучение будет разрешено только на проверенных, безопасных сервисах, чтобы избежать создания вредоносного ПО (малвари) . Полный запуск планируется до конца 2024 года.

Джесси Лю также анонсировал LAM 1.5. По его утверждению, новая версия модели научится переходить от цифровых интерфейсов к физическим . Идея заключается в том, чтобы с помощью компьютерного зрения идентифицировать аналоговый объект (например, термостат Nest) и через соответствующее приложение (Google Home) управлять им . Таким образом, ИИ свяжет видимый физический мир с цифровым управлением.

В долгосрочной перспективе Rabbit планирует внедрить Generative UI — динамический пользовательский интерфейс, который будет создаваться «на лету» под конкретную задачу пользователя, вместо фиксированных кнопок мобильных приложений . Также Rabbit Hole эволюционирует в полноценную десктопную операционную систему для решения серьезных задач, таких как анализ юридических документов или написание кода .

💬 Цитаты

«Наша миссия — создать самый простой компьютер, который вам не нужно учиться использовать.»

Джесси Лю 46:05

«R1 — это единственный нативный ИИ-продукт на рынке в данный момент без абонентской платы.»

Джесси Лю 30:20
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
LAM (Large Action Model)
Тип ИИ-модели, обученной не просто генерировать текст, а имитировать действия человека в интерфейсах программ.
Rabbit Hole
Персональный облачный портал для управления данными, логами и настройками Rabbit R1.
Teach Mode
Функция Rabbit OS, позволяющая пользователю записывать последовательность действий, чтобы ИИ мог их повторять автономно.
📊 Цифры
🗓 Хронология
  1. 9 января 2024 Оригинальная презентация продукта (Keynote).
  2. Апрель 2024 Продажи достигли отметки в 100 000 единиц.
  3. Лето 2024 Запланированы обновления с поддержкой Suno, Wolfram Alpha и Apple Music.
  4. Конец 2024 Ожидаемый публичный релиз режима Teach Mode.
⚖️ Другая сторона
Искусственный интеллект Rabbit R1 Jesse Lyu Large Action Model Rabbit OS 11 Labs