В новом выпуске ML News Янник Килчер (Yannic Kilcher) анализирует агрессивную коммерциализацию OpenAI, утечку весов модели LLaMA от Meta и прорывные японские исследования в области реконструкции визуальных образов из человеческого мозга. Завершает выпуск эксклюзивное интервью с Брайаном Катанзаро, вице-президентом NVIDIA, о стратегии компании в эпоху господства трансформеров.
💰 Коммерческий поворот OpenAI: API для ChatGPT и Whisper 1:49
OpenAI переходит от стадии исследовательских превью к полноценному предоставлению ИИ-услуг для бизнеса. Главной новостью стало открытие API для ChatGPT и модели распознавания речи Whisper .
Ключевые параметры нового API:
- Цена: Модель
gpt-3.5-turboстоит в 10 раз дешевле, чем существующие модели DaVinci (всего 10% от их стоимости) . - Эффективность: Низкая цена может свидетельствовать либо о меньшем размере модели, либо о значительной оптимизации инфраструктуры .
- Простота: Сторонние разработчики демонстрируют, что создание полноценного чат-бота на Python теперь занимает всего 16 строк кода .
Янник Килчер отмечает, что OpenAI радикально меняет политику конфиденциальности: теперь данные, передаваемые через API, не используются для обучения моделей по умолчанию, а срок хранения данных ограничен 30 днями . Также запущена платформа OpenAI Foundry, предлагающая выделенные вычислительные мощности для крупных корпораций. По слухам, годовой контракт на использование модели DaVinci с контекстным окном в 32 000 токенов может стоить около $1,5 млн .
🤝 Альянс с консалтингом и критика «закрытости» 6:12
OpenAI объявила о стратегическом партнерстве с консалтинговым гигантом Bain & Company. Первым крупным клиентом в рамках этого сотрудничества стала Coca-Cola, которая планирует использовать ChatGPT и DALL-E для создания гиперперсонализированной рекламы и улучшения потребительского опыта .
Янник Килчер критикует недавний манифест OpenAI «Planning for AGI and beyond», называя его «оправдательным документом» . По мнению ведущего, компания полностью отошла от своих истоков:
- Отказ от некоммерческой модели: Объясняется невозможностью привлечь достаточно средств для масштабирования .
- Смена курса на закрытость: OpenAI больше не публикует детали архитектуры, обучающих данных и механизмов фильтрации контента, мотивируя это требованиями безопасности .
- Мнение Янника: Ведущий считает «удобным» оправдывать сокрытие технологий и максимизацию прибыли заботой о безопасности перед лицом AGI, хотя признает, что в Кремниевой долине многие могут искренне верить в близость сверхразума .
🧬 Чтение мыслей и «умственные» способности моделей 15:46
Исследователи из Японии представили на конференции CVPR работу, которая буквально позволяет «читать мысли» . С помощью фМРТ-сканирования мозга человека, смотрящего на изображение, система реконструирует этот образ.
Технические детали эксперимента:
- Используется модель Stable Diffusion .
- Исследователи не обучали нейросеть с нуля, а создали «маппинг» (отображение) сигналов мозга в латентное пространство (latent space) готовой модели .
- Результаты демонстрируют поразительное семантическое сходство: если человек видит башню с часами, ИИ реконструирует именно башню с часами, хотя визуальные детали могут отличаться .
Янник Килчер делает из этого философский вывод: успех подобных интерфейсов доказывает, что современные ИИ-модели по структуре представления информации могут быть не так уж далеки от биологического мозга . По мнению автора, люди склонны переоценивать свою уникальность, в то время как человеческое мышление также может быть формой статистической интерполяции накопленного опыта .
🦙 Утечка LLaMA и неудачи робототехники Alphabet 13:31
В индустрии произошел курьезный случай: веса новой модели LLaMA от Meta, которые должны были выдаваться только исследователям по запросу, были опубликованы в виде торрент-ссылки прямо в Pull Request на GitHub . Сообщество встретило это с юмором, массово «одобряя» изменения в коде, содержащем нелегальную ссылку. Янник предупреждает, что скачивание весов из сторонних источников опасно из-за возможности встраивания исполняемого вредоносного кода в файлы моделей .
В то же время в аппаратном секторе наблюдаются трудности:
- Everyday Robots, проект внутри Alphabet (Google), закрывается как самостоятельное подразделение .
- Роботы, предназначенные для сортировки мусора и уборки столов, оказались слишком сложными и дорогостоящими в поддержке для текущих рыночных условий .
- Часть команды и технологий будет поглощена подразделением Google Research .
🎙️ Интервью с Брайаном Катанзаро (NVIDIA) 26:02
Янник Килчер побеседовал с Брайаном Катанзаро, определяющим вектор развития аппаратного обеспечения NVIDIA.
Зачем производителю чипов свои исследования?
Брайан утверждает, что NVIDIA — это не просто компания по производству видеокарт, а компания «ускоренных вычислений» . Исследования необходимы для понимания того, какие алгоритмы будут доминировать через 5–10 лет, чтобы заранее адаптировать под них архитектуру процессоров, компиляторов и сетевого оборудования. Катанзаро вспоминает, что в 2008 году он был единственным человеком в NVIDIA, занимавшимся ИИ .
Будущее трансформеров и AGI
По словам Катанзаро, трансформеры — это «невероятная удача» для индустрии . Он считает, что в ближайшие 5 лет они останутся доминирующей архитектурой, но станут гораздо сложнее:
- Появятся гибридные системы, использующие внешние инструменты (поиск в вебе, исполнение кода) .
- ИИ станет мультимодальным и иерархическим, предсказывая события на разных временных шкалах .
Относительно страхов перед ИИ (AGI) Брайан придерживается умеренной позиции: интеллект многогранен, и появление машин, превосходящих человека в тестах, не лишает человеческую жизнь смысла . Он сравнивает ИИ-революцию с промышленной: как сельское хозяйство стало автоматизированным, позволив людям заняться наукой и искусством, так и ИИ автоматизирует интеллектуальный труд, делая цивилизацию продуктивнее .