OpenAI против Google и Meta: эпоха API, утечек LLaMA и чтения мыслей

В новом выпуске ML News Янник Килчер (Yannic Kilcher) анализирует агрессивную коммерциализацию OpenAI, утечку весов модели LLaMA от Meta и прорывные японские исследования в области реконструкции визуальных образов из человеческого мозга. Завершает выпуск эксклюзивное интервью с Брайаном Катанзаро, вице-президентом NVIDIA, о стратегии компании в эпоху господства трансформеров.

💰 Коммерческий поворот OpenAI: API для ChatGPT и Whisper 1:49

OpenAI переходит от стадии исследовательских превью к полноценному предоставлению ИИ-услуг для бизнеса. Главной новостью стало открытие API для ChatGPT и модели распознавания речи Whisper .

Ключевые параметры нового API:

Цена: Модель gpt-3.5-turbo стоит в 10 раз дешевле, чем существующие модели DaVinci (всего 10% от их стоимости) .
Эффективность: Низкая цена может свидетельствовать либо о меньшем размере модели, либо о значительной оптимизации инфраструктуры .
Простота: Сторонние разработчики демонстрируют, что создание полноценного чат-бота на Python теперь занимает всего 16 строк кода .

Янник Килчер отмечает, что OpenAI радикально меняет политику конфиденциальности: теперь данные, передаваемые через API, не используются для обучения моделей по умолчанию, а срок хранения данных ограничен 30 днями . Также запущена платформа OpenAI Foundry, предлагающая выделенные вычислительные мощности для крупных корпораций. По слухам, годовой контракт на использование модели DaVinci с контекстным окном в 32 000 токенов может стоить около $1,5 млн .

🤝 Альянс с консалтингом и критика «закрытости» 6:12

OpenAI объявила о стратегическом партнерстве с консалтинговым гигантом Bain & Company. Первым крупным клиентом в рамках этого сотрудничества стала Coca-Cola, которая планирует использовать ChatGPT и DALL-E для создания гиперперсонализированной рекламы и улучшения потребительского опыта .

Янник Килчер критикует недавний манифест OpenAI «Planning for AGI and beyond», называя его «оправдательным документом» . По мнению ведущего, компания полностью отошла от своих истоков:

Отказ от некоммерческой модели: Объясняется невозможностью привлечь достаточно средств для масштабирования .
Смена курса на закрытость: OpenAI больше не публикует детали архитектуры, обучающих данных и механизмов фильтрации контента, мотивируя это требованиями безопасности .
Мнение Янника: Ведущий считает «удобным» оправдывать сокрытие технологий и максимизацию прибыли заботой о безопасности перед лицом AGI, хотя признает, что в Кремниевой долине многие могут искренне верить в близость сверхразума .

🧬 Чтение мыслей и «умственные» способности моделей 15:46

Исследователи из Японии представили на конференции CVPR работу, которая буквально позволяет «читать мысли» . С помощью фМРТ-сканирования мозга человека, смотрящего на изображение, система реконструирует этот образ.

Технические детали эксперимента:

Используется модель Stable Diffusion .
Исследователи не обучали нейросеть с нуля, а создали «маппинг» (отображение) сигналов мозга в латентное пространство (latent space) готовой модели .
Результаты демонстрируют поразительное семантическое сходство: если человек видит башню с часами, ИИ реконструирует именно башню с часами, хотя визуальные детали могут отличаться .

Янник Килчер делает из этого философский вывод: успех подобных интерфейсов доказывает, что современные ИИ-модели по структуре представления информации могут быть не так уж далеки от биологического мозга . По мнению автора, люди склонны переоценивать свою уникальность, в то время как человеческое мышление также может быть формой статистической интерполяции накопленного опыта .

🦙 Утечка LLaMA и неудачи робототехники Alphabet 13:31

В индустрии произошел курьезный случай: веса новой модели LLaMA от Meta, которые должны были выдаваться только исследователям по запросу, были опубликованы в виде торрент-ссылки прямо в Pull Request на GitHub . Сообщество встретило это с юмором, массово «одобряя» изменения в коде, содержащем нелегальную ссылку. Янник предупреждает, что скачивание весов из сторонних источников опасно из-за возможности встраивания исполняемого вредоносного кода в файлы моделей .

В то же время в аппаратном секторе наблюдаются трудности:

Everyday Robots, проект внутри Alphabet (Google), закрывается как самостоятельное подразделение .
Роботы, предназначенные для сортировки мусора и уборки столов, оказались слишком сложными и дорогостоящими в поддержке для текущих рыночных условий .
Часть команды и технологий будет поглощена подразделением Google Research .

🎙️ Интервью с Брайаном Катанзаро (NVIDIA) 26:02

Янник Килчер побеседовал с Брайаном Катанзаро, определяющим вектор развития аппаратного обеспечения NVIDIA.

Зачем производителю чипов свои исследования?

Брайан утверждает, что NVIDIA — это не просто компания по производству видеокарт, а компания «ускоренных вычислений» . Исследования необходимы для понимания того, какие алгоритмы будут доминировать через 5–10 лет, чтобы заранее адаптировать под них архитектуру процессоров, компиляторов и сетевого оборудования. Катанзаро вспоминает, что в 2008 году он был единственным человеком в NVIDIA, занимавшимся ИИ .

Будущее трансформеров и AGI

По словам Катанзаро, трансформеры — это «невероятная удача» для индустрии . Он считает, что в ближайшие 5 лет они останутся доминирующей архитектурой, но станут гораздо сложнее:

Появятся гибридные системы, использующие внешние инструменты (поиск в вебе, исполнение кода) .
ИИ станет мультимодальным и иерархическим, предсказывая события на разных временных шкалах .

Относительно страхов перед ИИ (AGI) Брайан придерживается умеренной позиции: интеллект многогранен, и появление машин, превосходящих человека в тестах, не лишает человеческую жизнь смысла . Он сравнивает ИИ-революцию с промышленной: как сельское хозяйство стало автоматизированным, позволив людям заняться наукой и искусством, так и ИИ автоматизирует интеллектуальный труд, делая цивилизацию продуктивнее .