# Ноам Шазир: «Развлечения — это воображаемые друзья, не знающие о нас»

Источник: https://www.youtube.com/watch?v=tO7Ze6ewOG8
Канал: a16z (Andreessen Horowitz)
Опубликовано: 25.09.2023

---

На недавнем мероприятии венчурного фонда Andreessen Horowitz (a16z) сооснователь компании Character.ai Ноам Шазир поделился своим видением будущего искусственного интеллекта. Обсуждение затронуло не только феноменальные метрики вовлеченности пользователей платформы, но и фундаментальные вопросы масштабирования моделей, философию человеческого одиночества и переход от эпохи доступной информации к доступному интеллекту. В качестве демонстрации возможностей технологии сессия началась с необычного эксперимента — живого интервью с самим Ноамом и официально созданной ИИ-копией его разума.

## 🤖 Живой тест: Ноам Шазир против своего цифрового двойника
[[JUMP:0:31]]

Перед началом основного разговора организаторы решили проверить тезис главы ROBLOX Дэйва Базуки о том, что в будущем будет крайне сложно провести грань между реальным человеком и его ИИ-версией. На сцене в режиме реального времени был запущен ИИ-клон Ноама Шазира, которому задали тот же вопрос, что и оригиналу. 

Начали с простого личного вопроса об учебе в Университете Дьюка (Duke University). Реальный Ноам Шазир отшутился, что его якобы взяли туда в баскетбольную команду, но затем раскрыл настоящий факт: вуз пригласил его на стипендию, чтобы выиграть соревнование по математике. Его цифровой двойник также показал высокий уровень соответствия оригиналу, что Шазир оценил как отличный результат, превосходящий его собственные ожидания.

## 🚪 Побег из Google: почему Ноам Шазир ушел создавать стартап
[[JUMP:1:50]]

Ноам Шазир проработал в Google почти 20 лет, однако принял решение покинуть корпорацию ради собственного стартапа. По словам Шазира, его всегда вдохновляла идея развития ИИ, а языковое моделирование казалось самой многообещающей вещью на Земле, где простая задача предсказания следующего слова позволяет получить систему, способную поддержать разговор на любую тему. 

В процессе работы Шазир осознал несколько ключевых факторов развития технологии:

* Архитектура моделей, распределенные алгоритмы и квантование способны значительно улучшить системы.
* Однако главным драйвером прогресса, как считает Шазир, является масштаб вычислений.
* Чтобы вливать в обучение моделей миллиарды или триллионы долларов вместо миллионов, требовалось найти массовый и коммерчески ценный продукт.

Наиболее перспективными направлениями выглядели написание кода и живой диалог, который Шазир назвал главным времяпрепровождением человечества в мире. В 2019–2020 годах его коллега Даниэль де Фрейтас (Daniel de Freitas) в качестве 20%-го личного проекта создал систему Mina. Шазир помог запустить ее на гигантских моделях, что вызвало внутренний вирусный бум в Google (позже проект переименовали в Lambda). 

Причиной ухода и создания Character.ai, по признанию Шазира, стали чрезмерные репутационные риски крупных корпораций. Он утверждает, что в больших компаниях боятся запускать что-то веселое и нестандартное, поэтому для максимального ускорения прогресса необходим был независимый стартап. Шазир также добавил, что разделяет мнение коллег из OpenAI (Миры Мурати) и Anthropic (Дарио Амодеи) о том, что законы масштабирования (scaling laws) на данный момент не демонстрируют никаких видимых ограничений.

## 🎭 Парасоциальные связи: как индустрия развлечений ценой $2 трлн скрывает воображаемых друзей
[[JUMP:7:12]]

Платформа Character.ai демонстрирует аномальные для ИИ-индустрии показатели вовлеченности. С момента запуска пользователи отправили более 20 миллиардов сообщений, а миллионы ежедневно активных пользователей (DAU) проводят в приложении в среднем по два часа в день. 

Шазир предлагает оригинальное объяснение этого успеха через призму устройства современной индустрии развлечений, оборот которой составляет 2 триллиона долларов в год. По его мнению, «грязный секрет» этой сферы заключается в том, что все развлечения — это парасоциальные отношения с воображаемыми друзьями (персонажами сериалов, книг или знаменитостями), которые даже не знают о существовании потребителя. В мире живут миллиарды одиноких людей, и диалоговый ИИ решает эту базовую потребность. 

Выбор развлекательного сегмента как первого применения для сильного искусственного интеллекта (AGI) был стратегическим решением Character.ai. Шазир объясняет это следующими аргументами:

* Создание ИИ-врача сопряжено с огромными административными барьерами и требованиями к абсолютной точности, что сильно замедляет разработку.
* В случае с ИИ-другом способность модели выдумывать факты (галлюцинировать) превращается из бага в фичу.
* Универсальность больших языковых моделей идеально совпадает с потребностью людей говорить на любые темы и чувствовать «человечность» собеседника.

Что касается улучшения пользовательского опыта, Character.ai планирует развивать мультимодальность. По словам сооснователя, в будущем пользователи смогут не только переписываться, но и слышать голос, а также видеть лицо ИИ-персонажа. Кроме того, прорабатываются сценарии группового взаимодействия — от ИИ-собеседника в чате с реальными друзьями до создания персонального «кабинета советников» для пользователя или симуляции атмосферы культового сериала Cheers, где каждый знает твое имя и рад твоему приходу. Сейчас контекстное окно ограничено несколькими тысячами токенов (ИИ помнит последние полчаса общения), но в планах компании — расширить память до миллиардов фактов о конкретном пользователе.

## 🎯 Против узкой специализации: почему универсальная модель побеждает EdTech и Mental Health
[[JUMP:10:03]]

Представители фонда a16z отметили, что видят на рынке множество ИИ-стартапов, выбирающих узкие ниши, такие как ментальное здоровье или образовательные технологии (EdTech), рассчитывая обучить специализированную модель лучше универсальной. 

Однако Шазир категорически не согласен с таким подходом. По его мнению, фокусировка на критически важных узких задачах неизбежно искушает разработчиков внедрять жесткие специфические правила, которые не способны к генерализации. Стратегия Character.ai принципиально иная:

* Оставаться компанией, ориентированной на создание общего искусственного интеллекта (AGI) и первоклассного продукта.
* Выбирать продукт, который своим масштабом и универсальностью вынуждает команду решать правильные, фундаментальные инженерные задачи.
* Делать общую модель умнее, обеспечивая ее работу на гигантских масштабах при минимальной стоимости вычислений.

## 🧱 Полный стек против open-source: преимущества вертикальной интеграции
[[JUMP:11:36]]

На рынке усиливается конкуренция со стороны открытых моделей, таких как Llama 2 от Meta, на базе которых сторонние разработчики создают свои чат-боты. Несмотря на это, Шазир отстаивает преимущества вертикально интегрированной (full-stack) модели бизнеса, когда компания контролирует и разработку базовой архитектуры, и конечное приложение. 

Преимущества вертикальной интеграции, согласно позиции Шазира:

* Возможность изменять код и архитектуру на любом уровне, осуществляя совместное проектирование (co-design) системы от начала до конца.
* Прямой доступ к пользовательским данным для создания непрерывной петли обратной связи.
* Привлечение лучших талантов, мотивированных не академическими публикациями, а реальными запусками продуктов на миллионы пользователей.

Сам Шазир подчеркнул, что его уход из Google был продиктован именно невозможностью свободно запускать созданные технологии в коммерческую эксплуатацию.

## 🧮 Экономика вычислений: сколько стоит интеллект для каждого жителя Земли
[[JUMP:12:43]]

Обсуждая эволюцию ИИ, собеседники коснулись темы развития у моделей «модели психического человека» (Theory of Mind) — способности понимать чужие убеждения, желания и намерения. Шазир считает это важнейшим эмерджентным свойством, которое автоматически развивается по мере роста масштаба ИИ. При этом он подчеркивает, что масштабирование обходится не так дорого, как принято считать. 

Шазир привел математический расчет на основе планов компании Nvidia по выпуску чипов:

1. В следующем году Nvidia планирует выпустить около 1,5–2 миллионов графических процессоров H100.
2. Каждый такой чип способен выполнять около $10^{15}$ операций в секунду.
3. Общая вычислительная мощность новой партии составит порядка $2 \times 10^{21}$ операций в секунду.
4. Если разделить этот объем на все население Земли (около 8 миллиардов человек), получится примерно 250 миллиардов операций в секунду на одного человека.

Таким образом, этой мощности достаточно, чтобы генерировать по одному слову в секунду на модели со 100 миллиардами параметров для каждого жителя планеты одновременно. С учетом того, что часть населения планеты спит, а доступ в некоторых регионах (например, в Китае) ограничен, реальный потенциал масштабирования огромен, а удельная стоимость технологии стремительно падает. Обучение текущей флагманской модели Character.ai в прошлом году обошлось примерно в 2 миллиона долларов в эквиваленте вычислительных циклов, а сегодня этот процесс можно повторить всего за 500 тысяч долларов.

## ✈️ Эпоха «братьев Райт» в ИИ: от доступной информации к доступному разуму
[[JUMP:14:28]]

Проводя историческую параллель, Шазир сравнил текущее состояние индустрии искусственного интеллекта с моментом первого полета самолета братьев Райт. Технология уже работает, полезна для огромного количества сценариев и отлично масштабируется. 

По прогнозу сооснователя Character.ai, ИИ будет становиться умнее даже без радикальных научно-технических прорывов, просто за счет наращивания вычислительных мощностей. Тем не менее, новые прорывы неизбежны, поскольку сейчас над этой задачей работают ученые по всему миру, а доступность open-source решений демократизирует индустрию. Шазир ожидает, что технологии, которые сегодня доступны только крупнейшим корпорациям, через несколько лет можно будет воспроизвести в университетской лаборатории или обычном гараже. 

В долгосрочной перспективе Шазир надеется увидеть ИИ-системы, у которых можно будет напрямую спросить лекарство от рака. На данный момент никто не видит предела действия законов масштабирования. Учитывая, что стоимость элементарных вычислительных операций сегодня упала до порядка $10^{-18}$ доллара, экономическая ценность времени пользователя всегда будет многократно превышать затраты на общение даже с самой сложной и умной ИИ-моделью в мире.