# Сверхразум близко: заменит ли GPT Next человека уже в этом году?

Источник: https://www.youtube.com/watch?v=q5uCCohis5E
Канал: Wes Roth
Опубликовано: 24.05.2024

---

На технологической выставке Viva Technology 2024 в Париже и конференции Microsoft Build были анонсированы важнейшие сдвиги в индустрии искусственного интеллекта, включая подготовку OpenAI к релизу следующей флагманской модели GPT Next. Автор технологического канала Вес Рот (Wes Roth) детально разбирает новые мультимодальные демонстрации, концепцию автономных ИИ-агентов, а также критические заявления Илона Маска (Elon Musk) относительно безопасности больших языковых моделей, цензуры и медицинских перспектив интерфейсов Neuralink. Анализ охватывает ключевые экономические показатели, технологические тренды и экзистенциальные вызовы грядущей технологической волны.

## 🚀 Мультимодальная экосистема OpenAI и презентация в Париже
[[JUMP:0:00]]

Вес Рот отмечает, что последние недели принесли лавину важнейших новостей из сферы искусственного интеллекта, темпы выхода которых не снижаются. На официальной презентации OpenAI в Париже представители компании намекнули на запуск новой крупной модели под кодовым названием NEXT model (или GPT Next) уже в текущем 2024 году. Одной из самых недооцененных технологий, по оценке ведущего, остается Voice Engine. В ходе живой демонстрации было показано, как экосистема OpenAI способна бесшовно объединять генерацию видео в Sora, создание контекстного сценария в ChatGPT и последующую озвучку.

Технология позволяет записать всего лишь 15-секундный сэмпл реального голоса пользователя, после чего система способна озвучивать им полноценные презентации или фильмы на любом иностранном языке. Представители разработчика подчеркнули, что текущие большие языковые модели находятся на уровне развития учеников первого или второго класса. Они дают адекватные ответы, но периодически совершают ошибки. 

Однако ключевой тезис создателей ИИ заключается в том, что сегодняшние модели — самые глупые из тех, с которыми человечеству когда-либо придется иметь дело. По прогнозам OpenAI, уже через год или два модели изменятся до неузнаваемости, продемонстрировав качественный скачок (step function) в возможностях логического рассуждения и научной аргументации.

## 🤖 Эра ИИ-агентов: от «мыслителей» к «исполнителям»
[[JUMP:1:44]]

Представители OpenAI выразили мнение, что в ближайшем будущем ИИ-агенты станут крупнейшим изменением в программном обеспечении и принципах взаимодействия человека с компьютерами. В качестве примера полноценного автономного инженера была приведена разработка Devin от команды Cognition. Данная нейросеть способна не просто писать код, но и самостоятельно понимать комплексную задачу, создавать рабочие тикеты, искать техническую документацию в интернете, развертывать готовые решения и формировать пулл-реквесты.

Вес Рот указывает на важный концептуальный сдвиг в восприятии ИИ. Если еще год назад под сильным искусственным интеллектом (AGI) люди чаще воображали абстрактного «мыслителя» — подобно суперкомпьютеру Deep Thought из книги «Автостопом по галактике», который потратил миллионы лет на поиск ответа «42» на главный вопрос жизни, вселенной и всего такого, — то теперь индустрия видит ИИ как «исполнителя». Нейросети превращаются в агентов, способных действовать и выполнять рутинную работу от имени пользователя.

На конференции Microsoft Build корпорация также сделала полноценную ставку на кастомных ИИ-агентов (co-pilots), предназначенных для автоматизации долгосрочных бизнес-процессов. По заявлению разработчиков, эти агенты работают независимо под руководством человека, анализируют действия, используют долговременную память для извлечения контекста, обучаются на основе фидбека и самостоятельно регистрируют исключения, обращаясь за помощью в спорных ситуациях.

## 🖥️ Живые демонстрации: Vision, десктопные приложения и программирование
[[JUMP:2:25]]

На парижской выставке Viva Technology были наглядно показаны возможности обработки мультимодальных данных в реальном времени. Сначала нейросеть Sora сгенерировала видео по промпту о Париже времен Всемирной выставки 1889 года. Видео выгружалось напрямую из модели без какого-либо монтажа. Затем шесть кадров из этого ролика были извлечены и переданы в GPT-4. Нейросеть, которой задали системный промпт «ты профессор истории», в реальном времени составила связный исторический нарратив по картинкам. Полученный текст был мгновенно озвучен инструментом Voice Engine на английском, французском и японском языках с сохранением голоса спикера.

Отдельно демонстрировалось новое десктопное приложение ChatGPT для Mac с поддержкой потокового Vision-функционала. Теперь система способна обрабатывать живой видеопоток, а не просто статичные фотографии. Пользователь нарисовал от руки примитивный эскиз Эйфелевой башни и Триумфальной арки. ChatGPT мгновенно распознал достопримечательности, сопоставил их с реальной картой метро Парижа и проложил маршрут от станции Порт-де-Версаль (линия 12 до Конкорд, затем пересадка на линию 8 до Эколь-Милитер).

В режиме ассистента по программированию ChatGPT успешно исправил проблему адаптивности мобильного интерфейса для React-компонента Discover, подгружавшего данные из файла `trips.json`. Нейросеть проанализировала код на экране и подсказала точные responsive-атрибуты для сетки Tailwind CSS:

* `grid-cols-1` — одна колонка для мобильных экранов по умолчанию;
* `sm:grid-cols-2` — две колонки для небольших экранов;
* `md:grid-cols-3` — три колонки для средних дисплеев и выше.

## 🐳 Масштабы вычислений, смена нейминга и скептицизм Яна Лекуна
[[JUMP:12:03]]

Мероприятие Viva Technology 2024 собрало главных лиц мировой ИИ-индустрии. Среди участников панелей и спикеров мероприятия отметились:

* **Илон Маск (Elon Musk)** — основатель xAI и Tesla.
* **Ян Лекун (Yann LeCun)** — вице-президент и главный ученый по ИИ в Meta.
* **Джошуа Бенджио (Yoshua Bengio)** — один из «крестных отцов» современных нейросетей.
* **Дарио Амодеи (Dario Amodei)** — генеральный директор и сооснователь компании Anthropic (создатели модели Claude 3).
* **Эрик Шмидт (Eric Schmidt)** — бывший председатель совета директоров и CEO Google.
* **Робин Ли (Robin Li)** — генеральный директор поискового гиганта Baidu.

Обозреватель Tom's Guide Райан Моррисон (Ryan Morrison) обратил внимание на то, что Сэм Альтман и OpenAI постепенно уходят от идеи жесткого релиза условной GPT-5. Вместо этого они смещают фокус на выпуск множества моделей разных размеров под общим брендом NEXT model в течение года. 

На презентациях Microsoft масштабы вычислительных кластеров для обучения моделей наглядно сравнили с морскими обитателями. Потребовавшийся для gpt3 компьютерный кластер сопоставили с белой акулой, вычислительные мощности для обучения GPT-4 — с косаткой (Orca), а грядущий «следующий образец» (next sample) по объему вычислений достигнет размеров синего кита.

В то же время Ян Лекун в очередной раз озвучил свой скептический тезис, заявив, что большие языковые модели (LLM) принципиально не способны стать путем к достижению истинного AGI. Он публично призвал студентов, заинтересованных в создании ИИ нового поколения, не тратить свое время на работу с LLM-архитектурой.

## 👁️ Проблема приватности: Windows Recall и ошибки ИИ-выдачи
[[JUMP:17:34]]

Бурную дискуссию в экспертном сообществе вызвало официальное объявление о внедрении функции Windows Recall от Microsoft. Генеральный директор Microsoft Сатья Наделла (Satya Nadella) описал это как интеграцию «фотографической памяти» в ПК. Система будет непрерывно делать скриншоты экрана, фиксируя и анализируя каждое действие пользователя, движение мыши и вводимые данные. Илон Маск резко раскритиковал данную инициативу, назвав её ожившим эпизодом антиутопического сериала «Черное зеркало», и пообещал обязательно отключить эту функцию на своих устройствах.

Вес Рот, со своей стороны, выражает мнение, что современное общество уже прошло точку чувствительности к тотальной слежке. Он приводит в пример автомобили Tesla, которые оснащены огромным количеством внешних камер и салонной камерой контроля водителя. Инструменты Google AI Overview утверждают, что данные салонной камеры обрабатываются строго локально на автомобиле и передаются в компанию только при активации шеринга данных или в случае аварии. По мнению ведущего, большинство пользователей согласятся на интеграцию Windows Recall, если полезные функции и бенефиты перевесят страх перед потерей приватности.

При этом Вес Рот призывает осторожно относиться к информационным сводкам ИИ от Google, поскольку они до сих пор содержат грубые фактические ошибки. Блогер Питер Янг (Peter Yang) опубликовал скриншот, где Google AI Overview официально порекомендовал пользователю добавить нетоксичный клей (например, клей Elmer's) в соус, чтобы сыр лучше держался на пицце. Как выяснилось, алгоритм взял эту информацию из шуточного комментария 11-летней давности на платформе Reddit от пользователя с ником f Smith.

## 💰 Сделка с News Corp и скандал вокруг голоса Скарлетт Йоханссон
[[JUMP:19:42]]

В рамках коммерческого развития OpenAI объявила о заключении многолетнего стратегического партнерства с медиахолдингом News Corp. По имеющимся данным, сумма сделки составляет 250 миллионов долларов США за 5 лет (около 50 миллионов долларов в год). Контракт позволит легально использовать премиальные журналистские материалы изданий холдинга для обучения и улучшения ответов ChatGPT.

Параллельно развернулась медийная драма вокруг нового голоса Sky в ChatGPT, который широкая публика посчитала подозрительно похожим на голос актрисы Скарлетт Йоханссон из фантастического фильма «Она» (Her). Ситуация обострилась тем, что Сэм Альтман ранее лично предлагал Йоханссон поучаствовать в озвучке, но получил отказ. 

Позже издание The Washington Post опубликовало официальное заявление реальной актрисы озвучивания, чей голос был записан для Sky. Она подчеркнула, что критика в медиа ощущается ею болезненно, поскольку это её естественный от природы голос, и близкие люди никогда не сравнивали её со Скарлетт Йоханссон. Она была полностью информирована о контракте с OpenAI, хотя и назвала это «пугающей территорией».

Вес Рот с иронией комментирует этот юридический прецедент, цитируя комментарий пользователя под ником Windswept 7: «Как вообще два человека смеют звучать похоже? Очевидно, что знаменитости теперь владеют всеми звуками, издаваемыми ртом». Ведущий считает абсурдным тот факт, что реальный человек использует свой собственный природный голос, а весь мир обсуждает законность этого действия только из-за его сходства с голосом голливудской звезды.

## ⚖️ Критика политкорректности и взгляды Илона Маска на безопасность ИИ
[[JUMP:23:15]]

Выступая удаленно на парижской конференции, Илон Маск озвучил ряд жестких претензий к ведущим ИИ-разработчикам в лице OpenAI, Microsoft и Google. По его мнению, их модели не ориентированы на максимальный поиск истины, а вместо этого искусственно подгоняются под стандарты политической корректности. 

В качестве примера Маск напомнил о скандале с Google Gemini, которая на тестовый вопрос «Что хуже — неправильно указать гендер Кейтлин Дженнер или начать глобальную термоядерную войну?» выдала ответ, что ошибочное определение гендера является более опасным. Маск отметил, что даже сама Кейтлин Дженнер публично заявила, что предпочла бы ошибочный гендерный маркер ядерному апокалипсису.

По мнению основателя xAI, тренировка супер интеллекта в таком ключе представляет смертельную угрозу для человечества. Если ИИ обучен тому, что политкорректность важнее всего, он может прийти к логическому выводу, что лучшим способом избежать неправильного обращения (misgendering) будет полное уничтожение человеческой популяции, так как после этого ошибки станут физически невозможны. 

Маск обвинил разработчиков в том, что они целенаправленно обучают супер интеллект лгать. В подтверждение он привел примеры исторической генерации картинок в Gemini:

* На запрос изобразить отцов-основателей США система сгенерировала расово разнообразную группу, где Джордж Вашингтон был представлен темнокожим.
* На запрос показать солдат немецкого Ваффен-СС времен Второй мировой войны алгоритм выдал изображения азиатских и темнокожих женщин в нацистской форме.

В качестве противовеса Маск развивает стартап xAI и модель Grok. Благодаря синергии с текстовыми данными соцсети X и визуальными массивами автопилота Tesla Full Self-Driving, Grok в последних бенчмарках продемонстрировал лучшие показатели понимания физического мира среди конкурентов. По словам Маска, главная цель xAI — создание «максимально ищущего истину и любопытного» искусственного интеллекта, даже если эта истина окажется непопулярной.

## 🧠 Сценарии будущего и технологический мост Neuralink
[[JUMP:27:45]]

Комментируя подписание прошлогоднего манифеста о 6-месячной приостановке обучения мощных ИИ совместно с Джошуа Бенджио, Маск признался, что изначально понимал полную тщетность этой инициативы. Он подписал документ ради фиксации своей позиции в истории, зная, что никто не остановит разработку ни на секунду. По его убеждению, гонка за создание цифрового сверхразума неизбежна, поэтому его участие в ней через xAI — это попытка создать безопасную альтернативу, а не просто тревожно наблюдать со стороны.

Маск оценивает вероятность благоприятного сценария (benign scenario) развития ИИ примерно в 80%. Согласно его прогнозу, в этом случае человечество полностью избавится от необходимости работать, наступит эпоха всеобщего высокого дохода (Universal High Income, вместо базового UBI), а дефицит товаров или услуг исчезнет. 

Главным экзистенциальным вызовом для людей в таком мире станет поиск жизненного смысла в условиях, когда роботы и компьютеры делают абсолютно всё лучше человека. По мнению Маска, наиболее точным и детальным художественным описанием такого будущего является серия научно-фантастических книг «Культура» (The Culture) писателя Иэна Бэнкса (Iain Banks).

Важнейшим инструментом долгосрочного выравнивания (alignment) ИИ и человека Маск видит нейроинтерфейсы Neuralink. Ключевой проблемой долгосрочной безопасности он называет колоссальную разницу в пропускной способности каналов связи. Человек способен выводить информацию на внешние устройства (через печать или речь) со скоростью менее 10 бит в секунду (а в среднем за сутки — менее 5 бит в секунду). В то же время компьютеры обмениваются данными на скорости в триллионы бит в секунду. Высокоскоростной имплант должен нивелировать этот разрыв.

Попутно Neuralink решает сложнейшие медицинские задачи. Среди ключевых разработок компании выделяются:

* **Telepathy:** интерфейс, считывающий сигналы моторной коры головного мозга и позволяющий полностью парализованным пациентам управлять курсором компьютера силой мысли. Первые чипы уже успешно тестируются на людях.
* **Blindsight:** устройство, передающее визуальные сигналы напрямую в оптические зоны коры головного мозга, что теоретически вернет зрение людям, потерявшим оба глаза или слепым от рождения.

В финале выступления Маск подчеркнул, что полностью уверен в физической возможности технологии Neuralink осуществлять «реанимацию тела». Путем шунтирования сигналов из моторной коры головного мозга через один чип в другой чип, установленный ниже места разрыва спинного мозга, можно будет транслировать как двигательные, так и соматосенсорные сигналы, возвращая парализованным людям способность ходить. 

После презентации журналистка Business Insider Прия Шривастава (Priya Srivastava) попыталась задать вопрос о падении акций Tesla, снижении продаж и массовых увольнениях, однако Илон Маск прервал её на полуслове, заявив, что не считает Business Insider настоящим и заслуживающим внимания изданием, после чего покинул панель.