В ближайшее время компания OpenAI планирует представить обновления, которые могут коренным образом изменить взаимодействие человека с искусственным интеллектом. Основатель канала Wes Roth анализирует последние утечки о новой модели под кодовым названием «GPT-4 Auto» и обсуждает программные заявления Сэма Альтмана о будущем ИИ-агентов, безусловном базовом доходе и пути к сильному ИИ (AGI).
🎙️ Прорыв в голосовых интерфейсах: «GPT-4 Auto» и возвращение к идеям фильма «Она» 0:00
Накануне официального стрима OpenAI, запланированного на понедельник, в сети появились данные о новой разработке . Сэм Альтман уже уточнил, что это не долгожданная GPT-5 и не поисковая система, хотя работа над поисковиком, по мнению аналитиков, действительно ведётся . Утечки кода указывают на название «GPT-4 Auto» .
Ключевые особенности новой модели, согласно имеющейся информации:
- Мультимодальность «из коробки»: В отличие от предыдущих итераций, где распознавание речи (transcription) и синтез голоса (text-to-speech) были отдельными процессами, новая модель объединяет аудио- и визуальные функции .
- Скорость и понимание контекста: Прямая интеграция позволяет ИИ лучше понимать интонации и визуальные данные с камеры в реальном времени, что делает взаимодействие почти мгновенным .
- Эффект фильма «Она»: Эксперты сравнивают будущую модель с виртуальным помощником из фильма Спайка Джонза, способным быть репетитором для детей или продвинутым агентом поддержки .
- Облачные вычисления: На начальном этапе технология будет работать через облако, так как модель слишком велика для локального запуска на смартфонах .
Также Wes Roth упоминает о возможной интеграции технологий OpenAI в устройства Apple и введении нового тарифного плана с 50-процентной скидкой для пользователей, оплачивающих сервис авансом .
🚀 Эволюция вместо революции: Когда ждать GPT-5? 3:24
В недавнем выпуске All-In Podcast Сэм Альтман поделился видением развития модельного ряда OpenAI. По его мнению, индустрия может отойти от привычной нумерации версий (1, 2, 3, 4, 5) .
Основные тезисы Альтмана по этому вопросу:
- Непрерывное улучшение: Пользователи уже заметили, как сильно GPT-4 выросла за последние месяцы. Альтман считает, что будущее за системами, которые становятся лучше постоянно и плавно, а не рывками от версии к версии .
- Адаптация общества: Постепенное внедрение новых возможностей легче воспринимается социумом, чем резкие технологические скачки .
- Природа интеллекта: Альтман высказал философскую мысль, назвав интеллект «эмерджентным (возникающим) свойством материи», что он сравнил с неким фундаментальным законом физики .
Что касается полноценной GPT-5, по данным источников Wes Roth, её релиз всё же ожидается, но, скорее всего, ближе к концу текущего года .
📱 Будущее устройств: Голос как основной интерфейс 4:42
Обсуждая форм-факторы вычислительных устройств, Сэм Альтман признался в своей любви к iPhone, назвав его «величайшим технологическим продуктом в истории человечества» . Однако он полагает, что мы стоим на пороге смены парадигмы.
По мнению главы OpenAI, идеальный ИИ-помощник должен обладать следующими характеристиками:
- Минимальное трение: Устройство должно быть «всегда включено» и требовать минимум усилий для взаимодействия .
- Голосовой приоритет: Качественное голосовое взаимодействие ощущается Альтманом как принципиально иной способ использования компьютера .
- Глубокий контекст: Система должна знать о пользователе как можно больше, чтобы эффективно помогать в течение дня .
Альтман выразил интерес к поиску новых физических воплощений для ИИ (wearables), которые могли бы дополнить или заменить привычный смартфон в специфических задачах .
🤖 Агенты нового поколения: «Старший сотрудник» вместо послушного исполнителя 5:59
Один из самых интересных моментов дискуссии — различие между ИИ как расширением личности («альтер-эго») и ИИ как отдельной сущностью. Альтман склоняется ко второму варианту .
Концепция «Executive Agent» (исполнительного агента) в видении Альтмана:
- Модель «старшего сотрудника»: Сэм предпочитает видеть в ИИ не просто бота, бездумно выполняющего команды, а компетентного коллегу .
- Способность возражать: Идеальный агент должен уметь «давать отпор», указывать на возможные ошибки в логике пользователя и предлагать альтернативные сценарии («Я могу это сделать, но вот к каким последствиям это приведёт») .
- Рассуждение вместо копирования: Агент должен обладать способностью к глубокому рассуждению (reasoning), а не просто быть «сикофантом» (льстецом, во всём соглашающимся с хозяином) .
💰 От безусловного дохода к «безусловному компьютингу» 7:20
Затрагивая тему влияния ИИ на рынок труда, Альтман упомянул о завершении масштабного пятилетнего исследования Y Combinator, посвященного безусловному базовому доходу (UBI) . Результаты исследования должны быть опубликованы в ближайшее время.
Однако Сэм Альтман предложил альтернативную, более футуристическую концепцию — Universal Basic Compute (Универсальный базовый вычислительный ресурс) .
Суть идеи:
- Вместо распределения денежных знаков, каждому гражданину выделяется определенная «доля продуктивности» будущих моделей (например, GPT-7) .
- Эту долю вычислений человек может использовать сам, перепродать, или пожертвовать на общественно значимые цели, например, на исследования в области лечения рака .
- Это владение «слайсом продуктивности» может стать новой основой социального контракта в мире, где ИИ генерирует основную часть стоимости .
🧠 Универсальное рассуждение: Главный ключ к AGI 8:50
В завершение беседы была затронута тема архитектуры будущих систем. Будет ли это сеть специализированных моделей или одна гигантская система? У Альтмана есть интуитивное предположение, что ключом является «генерализованное рассуждение» .
По его мнению, если инженерам удастся взломать код универсального рассуждения, подключение этого «ядра» к любым специализированным областям данных станет лишь вопросом техники. Это позволит ИИ осваивать новые домены так же быстро, как это делают люди с высоким интеллектом, что станет «быстрым разблокированием» (fast unlock) на пути к полноценному AGI .