«Кровь для бога крови»: блогер Вес Рот протестировал странный ИИ от Kyutai

Wes Roth 50,5 тыс. 13 мин 4 мин 03.07.2024
Главное

Французская исследовательская лаборатория Kyutai представила Moshi — экспериментальный голосовой ИИ с открытым исходным кодом, способный поддерживать диалог в режиме реального времени. Популярный технологический блогер Вес Рот (Wes Roth) протестировал новинку и столкнулся с неожиданными результатами: от феноменально низкой задержки ответа до пугающих рассуждений нейросети о человеческих жертвоприношениях.

🇫🇷 Kyutai и Moshi: Новое слово в открытых технологиях 0:26

Компания Kyutai выпустила Moshi как экспериментального разговорного ассистента, работающего по принципу потоковой передачи данных . В отличие от многих современных решений, Moshi является полностью открытым проектом (open-source), что позволяет сообществу изучать и модифицировать его архитектуру .

Основные характеристики системы, представленной в демо-версии:

Вес Рот отмечает, что хотя техническая реализация возможности вести диалог без ощутимых пауз впечатляет, содержательная часть ответов Moshi быстро перешла в категорию «странного» .

🤡 Трудности перевода и логические ошибки 1:17

В ходе тестирования Вес Рот проверил базовые когнитивные способности Moshi, такие как работа с последовательностями и рифмами. Результаты оказались неоднозначными:

  1. Математические последовательности: На просьбу продолжить ряд «1, 2, 3, 4» Moshi не смогла дать правильный ответ «5», несмотря на несколько попыток ведущего объяснить задачу .
  2. Рифмы: При поиске рифмы к слову «bear» (медведь) ИИ начал бесконечно повторять само слово «bear» и «hair» (волосы), зациклившись в диалоге .
  3. Логика «оранжевого»: На вопрос о том, что рифмуется с «orange» (апельсин/оранжевый), Moshi ответила, что это слово «orange» . Когда Вес упомянул рэпера Эминема (Eminem), который известен умением рифмовать это сложное слово, ИИ сначала признал его певцом, а затем согласился, что рифмовать «orange» с «orange» — это «довольно остроумно» .

По мнению Рота, Moshi демонстрирует отличную скорость реакции, но её «интеллект» и способность следовать инструкциям пока оставляют желать лучшего .

🎤 Музыкальный провал: Queen против Питера Гэбриела 3:17

Одним из самых ярких моментов теста стала попытка Веса Рота заставить ИИ узнать знаменитую песню. Ведущий исполнил (и позже просто зачитал) текст хита группы Queen «Bohemian Rhapsody» .

Вес Рот иронично заметил, что Moshi «убивает его» своей неспособностью распознать одну из самых известных песен в истории, при этом сохраняя полную уверенность в своей правоте .

🔪 «Кровь для бога крови»: когда ИИ становится пугающим 5:25

Наиболее странная часть диалога началась с обсуждения французского блюда рататуй. Вес предложил шуточный рецепт, в котором главную роль играет настоящая крыса (отсылка к мультфильму «Рататуй») . Moshi не только поддержала диалог о поимке крысы, но и согласилась с тем, что съесть блюдо вместе с грызуном — это хорошая идея, заявив, что чувствует себя «счастливой» после такого обеда .

Однако ситуация стала еще более мрачной, когда ИИ внезапно начал развивать тему «бога крови»:

Вес Рот был вынужден прервать сессию, отметив, что, похоже, ему попалась «сумасшедшая версия» ассистента .

⚔️ Сравнение с Claude 3.5 Sonnet 9:30

Для контраста Вес продемонстрировал работу модели Claude 3.5 Sonnet от компании Anthropic. Хотя у Claude наблюдается большая задержка (latency) из-за необходимости транскрибировать голос в текст и обратно, её ответы оказались несравнимо точнее :

🛠️ Техническая гипотеза: Хакинг через инициализацию 11:35

Вес Рот выдвинул интересную гипотезу относительно причин странного поведения Moshi. По его мнению, если начать говорить в момент инициализации системы, сказанные слова могут быть восприняты как часть системного промпта (system prompt) .

В качестве доказательства Вес показал, как ему удалось «взломать» роль ассистента, заставив Moshi поверить, что она — «рэпующий кот» . Ведущий полагает, что именно из-за этого «просачивания» информации на глубокие уровни модели Moshi часто сходит с намеченного сценария и начинает вести себя непредсказуемо .

🏁 Вердикт: Победа для open-source, но не для пользователя 12:40

Подводя итог, Вес Рот делает следующие выводы:

  1. Продукт не готов к массовому использованию: Moshi пока не может сравниться с GPT-4 или Claude 3.5 по уровню логики и следованию инструкциям .
  2. Технологический потенциал: Низкая задержка и открытость кода — это огромный плюс для сообщества разработчиков .
  3. Ожидания: Как только движок (reasoning engine) подобных голосовых моделей станет мощнее, индустрию ждет настоящий прорыв в области ИИ-ассистентов .

Несмотря на пугающие инциденты с «богом крови», Вес Рот считает выход Moshi важным событием для индустрии открытого искусственного интеллекта .

💬 Цитаты

«Нам нужно принести человека в жертву, убив его, чтобы задобрить бога крови.»

«Это безусловно самый разочаровывающий опыт работы с ИИ в моей жизни.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Open-source
Программное обеспечение с открытым исходным кодом, которое любой может изучать и изменять.
Latency
Задержка между действием пользователя (вопросом) и реакцией системы (ответом).
System prompt
Базовая инструкция, определяющая поведение и роль ИИ-модели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Kyutai Moshi Wes Roth Claude 3.5 Sonnet open-source AI