OpenAI анонсирует GPT Next: 100-кратный рост производительности и релиз в 2024 году

Wes Roth 58,7 тыс. 16 мин 3 мин 04.09.2024
Главное

Анонс следующего поколения языковых моделей от OpenAI вызвал большой резонанс в ИТ-сообществе. Согласно последним данным, полученным непосредственно от руководства компании, будущая модель — GPT Next (или GPT-5) — обещает качественный скачок в производительности, который авторы видео оценивают как «два порядка величины» (100-кратное улучшение) по сравнению с текущей GPT-4.

🚀 Анонс GPT Next: 100-кратный скачок производительности 0:00

На недавнем саммите KDDI 2024 в Японии Тадао Нагасаки, исполнительный директор и президент OpenAI Japan, официально представил планы компании на ближайшее будущее . По его словам, новая флагманская модель под рабочим названием GPT Next будет выпущена уже в 2024 году .

Ключевые характеристики GPT Next, озвученные на форуме:

🧠 Понятие OOM: как измерить прогресс ИИ 1:18

Для описания масштаба изменений эксперты все чаще используют термин OOM (Orders of Magnitude — порядки величины) . Увеличение на один порядок означает десятикратный рост. Таким образом, анонсированные «два порядка величины» (100x) — это колоссальный сдвиг.

Ведущий приводит наглядную аналогию развития моделей через систему образования :

При этом Уэс Рот подчеркивает, что рост эффективности не всегда означает пропорциональный рост энергопотребления . По мнению Леопольда Ашенбреннера, автора работы Situational Awareness, прогресс складывается из трех факторов: чистого объема вычислений (Compute), алгоритмической эффективности и «разблокировки» (unhobbling) скрытых возможностей модели . Таким образом, 100-кратное улучшение — это синергия мощного «железа» и более совершенной архитектуры обучения .

🍓 Проекты Strawberry и Orion: архитектурные хитрости 4:31

Разработка GPT Next тесно связана с проектами внутри OpenAI, известными под кодовыми именами Strawberry («Земляника») и Orion .

Алекс Грейв, бывший главный архитектор GitHub Copilot, считает, что использование качественных данных от Strawberry поможет практически полностью устранить проблему галлюцинаций . Если модель обучается на логически выверенных данных, она делает меньше необоснованных догадок .

🏛️ Структура модели: «Смесь экспертов» (MoE) 11:43

Один из самых обсуждаемых вопросов — реальный размер и структура GPT-5. На конференции Semicon Taiwan промелькнули слайды, указывающие на число параметров в триллионах .

Уэс Рот анализирует мнение Джорджа Хотца (основателя Tiny Corp), который утверждает, что секретность OpenAI — это лишь способ скрыть «не слишком крутые» архитектурные решения . По словам Хотца:

  1. GPT-4 не является единым монолитным гигантом; это 8-канальная «смесь экспертов» (Mixture of Experts), где каждая голова имеет около 220 миллиардов параметров .
  2. Компании используют MoE, когда у них заканчиваются идеи по масштабированию одиночных моделей .
  3. Любой, у кого есть деньги, может просто обучить одну модель восемь раз и объединить их .

Существует предположение, что GPT-5 может использовать формулу «3x5» — то есть комбинацию нескольких экспертных моделей по 5 триллионов параметров каждая, что в сумме дает беспрецедентный масштаб вычислений .

🇯🇵 Роль Японии в стратегии OpenAI 8:53

Выбор Японии как площадки для важных анонсов не случаен. Тадао Нагасаки отметил, что страна имеет уникальные условия для развития ИИ :

По мнению Нагасаки, ИИ способен изменить само понятие «сервиса», выполняя задачи на человеческом уровне, что критически важно для экономики с дефицитом рабочих рук .

💬 Цитаты

«Когда компания ведет себя скрытно, за исключением Apple, это обычно потому, что они прячут что-то не слишком крутое.»

Джордж Хотц 14:48

«Эффективная вычислительная нагрузка GPT Next будет в 100 раз больше, чем у GPT-4.»

Тадао Нагасаки 00:25
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
OOM (Orders of Magnitude)
Порядок величины; десятикратное увеличение или уменьшение значения.
Mixture of Experts (MoE)
Архитектура нейросети, состоящая из нескольких специализированных подмоделей («экспертов»), между которыми распределяются задачи.
Синтетические данные
Данные, созданные одной нейросетью для обучения другой модели, вместо использования данных, созданных людьми.
📊 Цифры
🗓 Хронология
  1. 2023 Выход модели GPT-4.
  2. Сентябрь 2024 Выступление Тадао Нагасаки на саммите KDDI с анонсом GPT Next.
  3. Конец 2024 Ожидаемое окно релиза GPT Next (согласно анонсу OpenAI Japan).
  4. 2025 Вероятный срок выхода модели Orion.
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT-5 GPT Next Strawberry Orion