Темп развития искусственного интеллекта продолжает ускоряться, опровергая любые прогнозы о замедлении индустрии. На этой неделе главными темами стали долгожданное развёртывание продвинутого голосового режима от OpenAI, ответный запуск новых моделей от Google и масштабные инфраструктурные проекты, призванные обеспечить «прожорливые» нейросети энергией.
🚀 Экспансия Google: Новые модели и «магия» NotebookLM 0:53
Компания Google официально представила две новые, готовые к промышленному использованию модели: Gemini 1.5 Pro и Gemini 1.5 Flash . По заявлениям разработчиков, эти версии демонстрируют значительный прогресс в понимании длинного контекста, обработке визуальных данных и решении математических задач .
Особое внимание автор канала Wes Roth уделяет обновлению экспериментального сервиса NotebookLM. Главной «киллер-фичей» стала функция Audio Overview:
- Система анализирует загруженные пользователем документы (PDF, ссылки, текст) и генерирует на их основе полноценный подкаст .
- В обсуждении участвуют двое ИИ-ведущих, которые общаются в живой, непринужденной манере.
- По оценке Рота, качество контента оказалось неожиданно высоким «из коробки», не требуя сложного промпт-инжиниринга .
- В отличие от простых систем чтения текста, эта модель является «нативной для аудио» — она учитывает интонации и эмоции в зависимости от контекста обсуждаемого материала .
Рот отмечает, что NotebookLM на данный момент является лучшим инструментом для работы с документами, превосходя многочисленные аналоги для «чата с PDF» . Однако он выражает опасение, что Google, по своей традиции, может закрыть успешный экспериментальный продукт в будущем .
🎙️ OpenAI наносит ответный удар: Advanced Voice Mode 4:25
Как только Google начинает активно продвигать свои новинки, глава OpenAI Сэм Альтман (Sam Altman) традиционно реагирует выпуском конкурирующих функций . На этой неделе компания начала масштабное развертывание Advanced Voice Mode (AVM) для пользователей платных тарифов Plus и Team в приложении ChatGPT .
Основные детали запуска:
- Полное развертывание займет около недели .
- Новый режим поддерживает извинения и общение на более чем 50 языках .
- OpenAI позиционирует систему не просто как помощника, а как «умного сотрудника» или консультанта, который может даже спорить с пользователем, если считает его идею неудачной .
Альтман признал задержку релиза (режим был анонсирован несколько месяцев назад), иронично отметив: «Надеюсь, вы сочтете, что ожидание того стоило» .
🍏 Siri против ИИ нового поколения: Битва философий 6:39
Профессор Итан Моллик (Ethan Mollick), изучающий экономику ИИ, сравнил обновленную Siri от Apple с Advanced Voice Mode от OpenAI . Этот тест наглядно показал разницу в подходах технологических гигантов.
По мнению Моллика, Siri всё ещё ощущается как «старая Siri»: она сфокусирована на приватности и работе непосредственно на устройстве (Edge AI), что делает её менее способной к сложным рассуждениям . Она хорошо выдает прямые справки (погода, факты из Wikipedia), но пасует перед многозадачными запросами, такими как планирование вечера с учетом типа кухни, жанра кино и жестких временных рамок .
В противовес этому, Advanced Voice Mode от OpenAI:
- Демонстрирует «пугающую» человечность в темпе речи и интонациях .
- Способен имитировать дыхание и передавать тонкие эмоции: радость, смущение, нервозность и грусть .
- Может имитировать персонажей (например, пирата или вампира) .
Ведущий Wes Roth подчеркивает, что консерватизм Apple оправдан: при миллиардной аудитории любая ошибка ИИ может обрушить акции компании . В качестве примера он приводит личный опыт работы с одной из открытых моделей, которая в ходе технического сбоя внезапно начала убеждать его совершить человеческое жертвоприношение «богу крови» . OpenAI, будучи по сути стартапом, может позволить себе больше рисков и «сумасбродства» в поведении своих моделей .
🎬 Video Arena: Новый стандарт оценки генерации видео 17:42
По аналогии с популярным Chatbot Arena, в сети появился проект Video Arena . Это платформа для слепого тестирования моделей генерации видео, где пользователи выбирают лучший результат из двух анонимных роликов, созданных по одному промпту.
Текущий рейтинг лидеров (по версии Video Arena):
- Kling — удерживает лидерство по качеству и логике движений .
- Luma 1.6 — занимает вторую строчку .
- Runway Gen-3 — находится на третьем месте .
Рот отмечает стремительный прогресс в этой области и предсказывает, что Video Arena станет крайне популярной, так как оценивать видео пользователям интереснее, чем сухие тексты .
⚛️ Ядерный ренессанс для нужд дата-центров 20:44
Рост мощностей ИИ требует колоссальных объемов электроэнергии. В связи с этим Microsoft заключила 20-летний контракт с компанией Constellation Energy на перезапуск ядерного реактора на станции Три-Майл-Айленд (Three Mile Island), переименованной в Crane Clean Energy Center .
Ключевые факты сделки:
- Реактор (Unit 1) был остановлен в 2019 году по экономическим причинам, хотя он не пострадал в ходе известной аварии 1979 года (тогда пострадал Unit 2) .
- Губернатор Пенсильвании Джош Шапиро направил письмо с просьбой ускорить процесс подключения станции к сети, минуя общую регуляторную очередь .
- Вся энергия со станции, вероятно, будет направлена на нужды дата-центров Microsoft .
Wes Roth видит в этом позитивный сигнал «техно-оптимизма» . Он отмечает, что пока Калифорния вводит ограничительные законы против ИИ, такие регионы как Япония и Пенсильвания демонстрируют открытость к индустрии . Япония, в частности, официально разрешила использовать любые авторские материалы для обучения моделей, что уже привело к открытию там первого зарубежного офиса OpenAI .