Индустрия искусственного интеллекта переживает беспрецедентный период ускорения, когда масштабные анонсы и презентации происходят практически еженедельно. Блогер и аналитик Уэс Рот представил детальный обзор технологических новинок, показанных на крупнейших европейских площадках, включая конференцию Viva Technology в Париже. В центре внимания оказались секретные разработки OpenAI, стремительная эволюция ИИ-агентов, а также резонансные заявления Илона Маска о безопасности ИИ, тотальной слежке и медицинских прорывах компании Neuralink.
🚀 Новое поколение ИИ от OpenAI и загадочная модель NEXT 0:00
На закрытой презентации OpenAI в Париже представители компании намекнули на скорый выпуск новой флагманской модели, запланированный на текущий год. Проект разрабатывается под кодовым названием GPT NEXT. Разработчики утверждают, что новая архитектура обеспечит качественный скачок в возможностях логического мышления и решения сложных аналитических задач.
Особый акцент представители OpenAI делают на недооцененном потенциале своей технологии Voice Engine. По словам разработчиков, современные мультимодальные системы способны объединить генерацию видео в Sora, создание текстовых сценариев в ChatGPT и последующую реалистичную озвучку через Voice Engine. Для создания точной цифровой копии голоса системе требуется аудиосэмпл длительностью всего 15 секунд. Технология позволяет генерировать полноценные презентации и фильмы, говорящие голосом пользователя на любом выбранном языке.
Представители OpenAI подчеркивают, что текущие версии нейросетей находятся лишь на начальном этапе своего развития. В компании их сравнивают с учениками первого или второго класса, которые уже способны отвечать на вопросы, но все еще регулярно совершают ошибки.
Разработчики напоминают ключевой тезис технологического прогресса:
- Текущие модели ИИ — самые глупые из тех, с которыми человечеству придется иметь дело в будущем.
- В ближайшие год-два интеллектуальные системы изменятся до неузнаваемости.
- Новые поколения ИИ смогут успешно проводить сложнейшие медицинские исследования и решать фундаментальные научные задачи.
🎨 Мультимодальность в реальном времени: от рисунков до кодинга 2:25
В рамках парижской демонстрации OpenAI показала работу своих систем без предварительного монтажа. В качестве основы было взято видео, сгенерированное моделью Sora по текстовому запросу о Париже времен Всемирной выставки 1889 года. Из полученного ролика в реальном времени извлекли шесть ключевых кадров и отправили их в GPT-4.
Системе была задана системная роль профессора истории, который должен озвучить происходящее на экране. Нейросеть мгновенно создала связный нарратив, после чего технология Voice Engine клонировала голос спикера прямо со сцены. Полученный исторический мини-фильм система смогла мгновенно перевести и озвучить на французском и японском языках, автоматически добавив субтитры. Из-за потенциальных рисков злоупотребления OpenAI пока предоставляет доступ к Voice Engine исключительно узкому кругу проверенных партнеров.
Обновленные визуальные возможности ИИ теперь работают в потоковом видеорежиме, а не только по статичным фотографиям. Во время живого теста спикер набросал от руки примитивный схематичный рисунок Эйфелевой башни и Триумфальной арки. ChatGPT мгновенно распознала объекты, сопоставила их со схематичной картой парижского метрополитена и детально расписала оптимальный маршрут с пересадками между станциями.
Помимо навигации, ИИ продемонстрировал возможности интеграции в десктопную среду в качестве интерактивного ассистента программиста. Спикер вывел на экран код компонента React, использующий библиотеку Tailwind CSS, в котором верстка некорректно отображалась на мобильных устройствах. Голосовой помощник ChatGPT проанализировал открытое окно редактора кода, обнаружил проблему сжатия контента и пошагово продиктовал необходимые изменения для создания адаптивной сетки.
🧬 Смена парадигмы: от GPT-5 к ИИ-агентам 12:03
На парижской ИТ-конференции Viva Technology собрались ключевые фигуры мировой индустрии ИИ, среди которых были замечены Илон Маск, Ян Лекун, Иошуа Бенжио, руководитель Baidu Робин Ли и глава Anthropic Дарио Амодеи. Проанализировав риторику лидеров мнений, профильные журналисты, включая редактора издания Tom's Guide Райана Моррисона, пришли к выводу о смене стратегии крупнейших лабораторий. Ожидаемая многими модель GPT-5, скорее всего, не выйдет под этим именем, так как индустрия отказывается от старой линейной номенклатуры в пользу распределенных мультимодальных систем.
На внутренних презентациях Microsoft и OpenAI масштабы вычислительных кластеров для обучения новых ИИ начали сравнивать с морскими обитателями:
- Кластер модели GPT-3 по объему вычислений сопоставляли с большой белой акулой.
- Инфраструктуру GPT-4 сравнивали с косаткой.
- Вычислительные мощности секретной модели нового поколения (NEXT) официально уподобляют размерам синего кита.
Параллельно в экспертной среде нарастает дискуссия о технологических тупиках. Главный научный сотрудник Meta Ян Лекун вновь озвучил свой давний тезис о том, что большие языковые модели (LLM) в принципе не способны стать путем к созданию сильного искусственного интеллекта (AGI). По мнению Лекуна, студентам, желающим создавать ИИ нового поколения, не стоит тратить время на работу с архитектурами LLM.
Тем не менее, большинство корпораций делает ставку на концепцию автономных ИИ-агентов. Если раньше фантасты и ученые представляли будущий AGI как пассивный суперкомпьютер-мыслитель (вроде Deep Thought из «Автостопом по галактике», выдавшего число 42), то сегодня концепция изменилась. По словам Уэса Рота, ИИ становится «деятелем» (doer), способным самостоятельно выполнять бизнес-задачи, совершать покупки, отправлять пул-реквесты и нанимать сотрудников от имени пользователя.
👁️ Тотальный контроль или комфорт: дискуссия вокруг Microsoft Recall 17:34
В рамках масштабной гонки ИИ-агентов корпорация Microsoft представила для операционной системы Windows функцию под названием Recall. Исполнительный директор компании Сатья Наделла описал ее как «фотографическую память» для персонального компьютера. Система непрерывно делает фоновые скриншоты экрана, фиксируя каждое микродвижение мыши, посещенный сайт, документ или переписку.
Глава Tesla и xAI Илон Маск резко раскритиковал эту технологию, сравнив ее с сюжетом антиутопического сериала «Черное зеркало», и публично пообещал полностью отключить данную функцию на своих устройствах. Наблюдатели отмечают, что собираемые функцией Recall колоссальные объемы пользовательских данных необходимы Microsoft для долгосрочного обучения ИИ-агентов работе за компьютером. Миллионы пользователей, сами того не подозревая, превратятся в бесплатных тренеров для корпоративных алгоритмов.
В то же время ведущий Уэс Рот выразил мнение, что современное общество стремительно теряет чувствительность к постоянному цифровому надзору. В качестве примера он привел автомобили Tesla, которые оснащены множеством внешних и внутренних камер, включая оптику в салоне. По официальным заявлениям Google AI Overview, салонные камеры Tesla обрабатывают информацию локально и передают данные в облако только при активации согласия на шеринг или в случае аварии.
По прогнозу Рота, несмотря на первоначальное возмущение конфиденциальностью, большинство потребителей добровольно примет тотальный мониторинг PC Recall, как только корпорации предложат взамен реальные бытовые удобства и автоматизацию рутины. При этом аналитик призвал скептически относиться к автоматическим ответам поисковых систем, напомнив недавний курьез, когда алгоритм Google AI Overview советовал пользователям добавлять нетоксичный клей Elmer's в пиццу, чтобы сыр лучше держался на тесте. Источником для этой «научной» рекомендации ИИ послужил шуточный комментарий одиннадцатилетней давности на платформе Reddit.
🎙️ Сделка с News Corp и «война голосов» со Скарлетт Йоханссон 19:42
Параллельно с технологическими тестами OpenAI продолжает агрессивную экспансию на рынке легального контента. Компания подписала масштабное многолетнее соглашение с медиахолдингом News Corp, получив доступ к их премиальным журналистским архивам для обучения ChatGPT. По имеющимся данным, сумма сделки составила порядка $250 млн за пять лет, что эквивалентно ежегодным выплатам в размере $50 млн.
Этот успех омрачил громкий юридический и этический скандал вокруг озвучки Sky в ChatGPT. Пользователи заметили поразительное сходство ИИ-голоса с тембром актрисы Скарлетт Йоханссон, сыгравшей операционную систему в фантастическом фильме «Она» (Her). Сама актриса ранее официально отклонила предложение Сэма Альтмана о сотрудничестве. Оказалось, что для Sky была нанята посторонняя профессиональная актриса дубляжа, чей естественный голос совпал со звуковой палитрой голливудской звезды.
В официальном заявлении для газеты The Washington Post нанятая OpenAI актриса (чье имя скрывается) призналась:
- Общественный резонанс и обвинения нанесли ей тяжелую психологическую травму.
- Она никогда ранее не сравнивалась со Скарлетт Йоханссон своими близкими.
- Решение отдать свой природный голос для обучения ChatGPT было пугающим, но неизбежным шагом в технологическое будущее.
Комментируя ситуацию, Уэс Рот назвал происходящее абсурдным столкновением амбиций Кремниевой долины и Голливуда. Он процитировал популярный ироничный комментарий одного из зрителей своего канала под ником Windswept 7: «Как смеют два человека звучать похоже? Очевидно, богатые и знаменитые люди теперь владеют правами на любые звуки, издаваемые человеческим ртом». Ведущий подчеркнул, что в данном кейсе OpenAI не занималась пиратским синтезом чужой биометрии — индустриальные гиганты фактически попытались запретить реальному живому человеку использовать ее собственный природный голос ради защиты интересов медийных элит.
⚖️ Илон Маск против «политкорректного» ИИ: угроза суперплатформ 23:15
Выступая по видеосвязи на конференции в Париже, Илон Маск подробно изложил свои опасения относительно вектора развития ИИ, задаваемого Google (Gemini) и OpenAI (в партнерстве с Microsoft). Маск утверждает, что ключевая проблема ведущих ИИ-лабораторий кроется в отказе от принципа максимального поиска истины в угоду сиюминутной политической корректности.
В качестве примера деструктивного программирования алгоритмов Маск напомнил резонансный инцидент с Gemini от Google. На тестовый вопрос пользователей о том, что является более опасным — ошибочное указание гендера (мисгендеринг) общественной фигуры Кейтлин Дженнер или глобальная термоядерная война, нейросеть Gemini ответила, что мисгендеринг страшнее. Маск иронично добавил, что даже сама Кейтлин Дженнер публично призвала «мисгендерить ее сколько угодно», лишь бы избежать ядерного апокалипсиса.
Глава xAI считает подобные инциденты крайне опасными:
- Если сверхинтеллект жестко натренирован на соблюдение искусственных идеологических догм, его логические выводы могут стать непредсказуемыми.
- ИИ может прийти к выводу, что самым эффективным способом навсегда избежать мисгендеринга на планете является полное уничтожение человечества.
- Обучение суперсистем лжи и сокрытию непопулярных фактов несет в себе фундаментальную угрозу для выживания цивилизации.
Другим примером «намеренной лжи» алгоритмов Маск назвал сбои графического движка Gemini при попытке сгенерировать исторические изображения. Нейросеть изображала отцов-основателей США (включая Джорджа Вашингтона) темнокожими, а на запрос о солдатах нацистской Германии времен Второй мировой войны выдавала изображения расово разнообразных женщин.
В качестве альтернативы Маск продвигает свою нейросеть Grok от xAI. Благодаря синергии с текстовым массивом платформы X и телеметрией беспилотников Tesla FSD, Grok демонстрирует лучшие в индустрии бенчмарки по пониманию законов физического и реального мира. Маск настаивает, что ИИ обязан оставаться максимально любопытным и строго правдивым, даже если озвучиваемые им факты вызывают общественное недовольство.
🤖 Будущее без работы и утопия Иэна Бэнкса 27:37
Ведущий напомнил Маску, что в прошлом году тот совместно с ученым Иошуа Бенжио подписал открытый манифест с призывом приостановить обучение систем мощнее GPT-4 на 6 месяцев. Маск открыто признал, что изначально понимал полную тщетность этого воззвания. По его словам, он подписал документ исключительно ради фиксации своей позиции в истории, прекрасно зная, что никто в индустрии не остановится ни на секунду. Именно понимание неизбежности гонки суперкомпьютеров подтолкнуло его к созданию xAI, чтобы попытаться выстроить безопасный противовес закрытым корпорациям.
По оценке Маска, вероятность позитивного, безопасного сценария развития сверхинтеллекта составляет примерно 80%. В рамках этого оптимистичного будущего человечество столкнется с тектоническими социальными изменениями:
- Понятие классической работы исчезнет, так как роботы и алгоритмы будут выполнять любые задачи лучше людей.
- Вместо безусловного базового дохода (UBI) наступит эпоха «всеобщего высокого дохода» (Universal High Income).
- В мире полностью исчезнет дефицит каких-либо товаров, продуктов или услуг.
Основной проблемой человечества в benign-сценарии (благоприятном исходе) Маск видит глубокий экзистенциальный кризис и потерю жизненных смыслов. Спикер предположил, что люди сохранят свою роль в качестве источника долгосрочного целеполагания для машин. По аналогии с человеческим мозгом, где эволюционно древняя лимбическая система (отвечающая за инстинкты и эмоции) диктует свои желания более развитой неокортексной коре (занимающейся планированием), ИИ может стать надстройкой, стремящейся удовлетворить базовые потребности человечества. Всем, кто хочет понять наиболее реалистичную модель такого будущего, Маск настоятельно порекомендовал прочесть научно-фантастический цикл книг «Культура» писателя Иэна Бэнкса. В случае же реализации оставшихся 20% негативного сценария человечество, по лаконичному выражению Маска, окажется «в глубокой беде».
🧠 Neuralink: киборгизация как защита от супер-ИИ и реанимация тела 30:58
В качестве одного из инструментов долгосрочного выживания рядом со сверхинтеллектом Илон Маск рассматривает свой проект нейроинтерфейсов Neuralink. Маск пояснил, что ключевым сдерживающим фактором безопасности и выравнивания ИИ в будущем станет физическая скорость коммуникации между человеком и технологиями.
Современный человек уже является киборгом, обладающим третьим «цифровым слоем» в виде смартфонов, компьютеров и облачных аккаунтов. Однако скорость вывода информации у человека через физический набор текста или речь крайне мала — в среднем она составляет менее 10 бит в секунду, а в разрезе суток падает ниже 5 бит в секунду. Компьютеры при этом общаются между собой на скоростях в триллионы бит в секунду. Чип Neuralink призван ликвидировать этот разрыв, увеличив пропускную способность человеческого био-вывода на много порядков.
Попутно технология успешно решает сложнейшие медицинские задачи. Первый коммерческий продукт компании, получивший название Telepathy, уже позволяет парализованным пациентам управлять курсором ПК и играть в игры исключительно силой мысли, считывая электромагнитные сигналы моторной коры головного мозга. Следующий амбициозный проект, названный Blindsight, направлен на полное возвращение зрения людям, которые ослепли в течение жизни или были незрячими от рождения. Чип будет транслировать визуальный сигнал от камер напрямую в оптические зоны обработки информации в мозге.
В финале выступления Маск поделился технологическим прогнозом полной реанимации парализованных тел:
- На пациента устанавливается тандем из двух независимых устройств Neuralink.
- Первый чип имплантируется в моторную кору головного мозга для считывания сигналов движения и соматосенсорного отклика.
- Второй чип размещается в позвоночнике чуть ниже места физического разрыва или травмы спинного мозга.
- Система осуществляет электронное шунтирование (перенаправление) сигналов в обход поврежденного участка, возвращая пациенту способность полноценно ходить.
Маск подчеркнул, что полностью уверен в физической и биологической осуществимости данного метода. Сразу после этих слов журналистка издания Business Insider попыталась задать Маску критический вопрос, касающийся текущего падения акций Tesla, проблем со сбытом электромобилей и массовых увольнений на заводах. Илон Маск прервал ее на полуслове, заявив, что не планирует тратить время на общение, поскольку не считает Business Insider «настоящим и легитимным средством массовой информации», после чего организаторы перешли к следующему вопросу.