Вес Рот о GPT 4.1: «Сверхмассивная черная дыра» OpenAI и прыжок в науку

Компания OpenAI представила новую линейку моделей GPT 4.1, которая обещает значительно расширить возможности разработчиков и закрыть пробел между «рассуждающими» (reasoning) и стандартными моделями. Популярный технологический обозреватель Вес Рот (Wes Roth) в своём свежем обзоре разбирает технические характеристики новинок, раскрывает тайну загадочной модели «Quazar» и анализирует, как новые инструменты уже помогают учёным совершать открытия.

🌌 Загадка Quazar и «Сверхмассивная чёрная дыра» 0:00

На недавнем стриме OpenAI, посвящённом запуску GPT 4.1, компания использовала интригующее название и эмодзи сверхмассивной чёрной дыры. Как отмечает Вес Рот, это стало прямой отсылкой к модели Quazar, которая ранее появилась в рейтинге LM System Arena под псевдонимом и вызвала множество слухов . В астрономии квазар — это активное ядро галактики, питаемое сверхмассивной чёрной дырой и излучающее колоссальное количество энергии.

По словам Веса Рота, в ходе трансляции представители OpenAI фактически подтвердили, что за именем Quazar скрывалась модель GPT 4.1 Mini . Теперь эти модели доступны официально через API и в интерфейсе OpenAI Playground. Блогер подчеркивает, что выбор такого названия подчеркивает амбиции компании по созданию «энергичных» и высокопроизводительных ИИ-инструментов .

📊 Линейка GPT 4.1: Скорость против интеллекта 1:44

OpenAI представила три основные модификации новой модели:

GPT 4.1 — флагманская модель линейки;
GPT 4.1 Mini — сбалансированное решение по скорости и качеству;
GPT 4.1 Nano — сверхбыстрая модель, оптимизированная для клиентских устройств (edge devices).

Вес Рот приводит данные графиков производительности, где наглядно виден прогресс по сравнению с GPT-4o . В частности:

Интеллект: Наблюдается «массивный скачок» от 4o Mini к 4.1 Mini. Разница между флагманскими 4o и 4.1 менее радикальна, но всё же заметна .
Задержка (Latency): Модели 4.1 и 4.1 Mini сохраняют ту же скорость работы, что и их предшественники в версии 4o, при этом становясь умнее .
Nano-версия: Модель 4.1 Nano демонстрирует самую низкую задержку, хотя её показатели в тестах MMLU (многоязычное понимание) ожидаемо ниже, чем у «старших» версий .

Важным концептуальным отличием является то, что 4.1 относится к категории «не-рассуждающих» (non-reasoning) моделей, в отличие от 03 Mini . Однако OpenAI удалось довести возможности 4.1 до уровня, когда она практически не уступает рассуждающим моделям в тестах на логику, оставаясь при этом такой же быстрой и поддерживая мультимодальный ввод (текст и изображения) .

💻 Программирование и работа с контекстом 1:59

Одним из главных преимуществ GPT 4.1 стала эффективность в написании кода. Модель набрала 54,6 балла в тесте SUI Bench Verified, что на 21,4% выше результата GPT-4o . По мнению Веса Рота, это делает новинку лидером среди моделей своего класса, хотя она всё ещё уступает рассуждающей Gemini 2.5 Pro, которая удерживает рекорд в 63,8 балла .

Ключевые технические обновления включают:

Контекстное окно в 1 миллион токенов. Теперь OpenAI сравнялась по этому показателю с линейкой Gemini от Google .
Снижение стоимости. Цена на входные и выходные токены для GPT 4.1 снижена примерно на 20% по сравнению с GPT-4 .
Улучшенное следование инструкциям. Вес Рот упоминает новый «гайд по промптингу» от OpenAI, который помогает добиться 20% прироста эффективности при правильном составлении запросов .

Для тестирования способностей модели удерживать контекст OpenAI представила новый бенчмарк — MRCR (Multi-round Co-reference) . Вместо простого поиска «иголки в стоге сена» (одного слова в огромном тексте), MRCR заставляет ИИ выполнять сложные задачи. Например, модель просят написать несколько разных стихов о тапирах и блог-постов о камнях, а затем просят извлечь именно «третье стихотворение о тапирах» . Вес Рот отмечает, что GPT 4.1 справляется с этим значительно лучше предшественников, не путаясь в похожих сущностях .

🛠 Предложения для разработчиков и интеграции 2:51

OpenAI активно стимулирует переход на новые модели через систему бонусов. Разработчики могут получить бесплатные токены, если согласятся делиться обратной связью и «трейсами» (следами работы модели) с компанией . Лимиты на бесплатное использование составляют до 1 млн токенов в день для старших моделей и до 10 млн для Mini-версий (акция действует до 30 апреля) .

Также Вес Рот выделил интеграцию с IDE Windsurf:

Windsurf предоставляет неограниченный бесплатный доступ к GPT 4.1 на период с 14 по 21 апреля .
Основатель Windsurf лично представил эту возможность на стриме OpenAI .
Интеграция позволяет использовать 1-миллионное контекстное окно прямо в процессе написания кода, что, по словам блогера, дает «ощутимую разницу в мощности» .

🚀 Будущее: Модели 03, 04 и научные прорывы 10:47

Несмотря на значимость выпуска GPT 4.1, Вес Рот считает, что это лишь подготовка к выходу «тяжелой артиллерии» — моделей серий 03 и 04 . Согласно данным издания The Information, некоторые пользователи уже получили доступ к ранним превью этих моделей.

Блогер приводит следующие сведения о будущих разработках:

Уровень PhD: Модели 03 и 04 будут сопоставимы по уровню знаний с исследователями со степенью доктора наук .
Высокая стоимость: Ходят слухи, что доступ к самым мощным версиям может стоить до $20 000 в месяц .
Научный вклад: Учёные, тестирующие ранние версии 03 Mini High, сообщают, что ИИ уже помогает в открытии новых материалов и значительно ускоряет проведение экспериментов .

В завершение Вес Рот иронично объясняет странную нумерацию (выпуск версии 4.1 после 4.5). По его мнению, это логика версии «4.10», которая в программном обеспечении следует за 4.5, а не предшествует ей . Блогер обещает провести серию собственных тестов («gauntlet of tests»), чтобы проверить, насколько реально GPT 4.1 превосходит текущих лидеров рынка .