Технический разбор GPT-4: скрытые параметры, законы масштабирования и риски для бизнеса

Долгожданный релиз мультимодальной модели GPT-4 от компании OpenAI вызвал бурную дискуссию в ИТ-сообществе. Популярный исследователь искусственного интеллекта и разработчик Янник Килчер провел подробный критический разбор 98-страничного документа, сопровождающего запуск новой нейросети. Главным сюжетом этого анализа становится не столько технологический прорыв, сколько окончательная трансформация некогда открытой лаборатории в жестко коммерциализированную ИТ-структуру.

📉 Открытая наука в прошлом: OpenAI становится коммерческой ИТ-лавкой 0:00

Официальный выход GPT-4 сопровождался публикацией документа, природа которого вызвала у экспертов массу вопросов. OpenAI назвала эту публикацию техническим отчетом, однако, по мнению Янника Килчера, данный текст невозможно классифицировать как полноценную научную статью. На 98 страницах авторы фактически декларируют лишь то, что они обучили модель на больших массивах данных, и она получилась качественной и безопасной.

При этом характер безопасности ИИ претерпел существенные изменения. Если раньше создатели рассуждали о глобальном благе для человечества и борьбе со скрытыми искажениями (biases), то теперь, как подчеркивает Килчер, речь идет об исключительно коммерческой безопасности. Модель спроектирована так, чтобы крупные корпорации могли беспрепятственно встраивать ее в свои коммерческие продукты, не опасаясь, что алгоритм внезапно начнет оскорблять клиентов.

Подобный прагматичный подход заставил ведущего жестко раскритиковать руководство OpenAI. По мнению Килчера, исследовательское сообщество не должно мириться с подобной практикой:

«Мы должны открыто осуждать OpenAI за это. Перед нами больше не исследовательская организация, а обычная софтверная лавка. Это нормально, но тогда не нужно заявлять о своей открытости».

На официальном сайте компании теперь сосуществуют две разные страницы: одна позиционируется как продуктовая, а вторая — как исследовательская. Однако исследовательская страница, как считает Килчер, является лишь сокращенной версией рекламного буклета.

🖼️ Мультимодальность GPT-4: Ожидания против реальности 2:55

Новая модель официально объявлена мультимодальной, поскольку она способна принимать на вход не только текст, но и графические изображения, выдавая текстовый результат. Янник Килчер признается, что на фоне завышенных ожиданий рынка этот анонс приносит легкое разочарование, ведь в сообществе активно циркулировали слухи о возможностях генерации видео или полноценных картинок. Тем не менее текущий функционал по-прежнему остается технологически сильным.

В качестве примера реального применения Килчер приводит утреннюю трансляцию соучредителя OpenAI Грега Брокмана. Во время прямого эфира Брокман продемонстрировал впечатляющий кейс:

Он от руки набросал грубый эскиз интерфейса будущего сайта на обычном листке бумаги.
На рисунке были схематично обозначены кнопка и текстовое поле для шутки.
Брокман сфотографировал набросок и загрузил изображение в GPT-4.
Нейросеть мгновенно распознала логику рисунка и сгенерировала готовый рабочий код для сайта с функционирующими кнопками.

Помимо генерации веб-страниц по эскизам, GPT-4 способна анализировать сложные инфографики и скриншоты документов. В техническом отчете приводится пример, где нейросеть построчно разбирает юмористический смысл интернет-мема. Система успешно объяснила, что комизм изображения заключается в абсурдности подключения громоздкого, устаревшего кабеля VGA к миниатюрному зарядному порту современного смартфона. Другим примером визуального анализа стала фотография мужчины, который гладит одежду на гладильной доске, закрепленной прямо на крыше движущегося городского такси.

🎓 Триумф на человеческих экзаменах: Стоит ли юристам бояться увольнения? 4:57

Одним из главных сюрпризов релиза стало тестирование GPT-4 не только на академических бенчмарках, но и на реальных человеческих экзаменах, включая тесты по химии, алгебре и праву. Результаты модели приводятся в процентилях, отражающих ее положение среди людей-экзаменуемых:

На сложном юридическом тесте LSAT нейросеть набрала 88-й процентиль.
Симулированный экзамен на статус адвоката (bar exam) GPT-4 сдала с результатом, позволившим ей войти в топ-10% лучших участников.
Предыдущая модель GPT-3.5 на этом же адвокатском экзамене провалилась в худшие 10%.

Несмотря на панические настроения в прессе, Килчер призывает подходить к этой статистике с холодной головой. Он напоминает, что данные тесты изначально создавались для людей с целью выявить различия в человеческих способностях к запоминанию и воспроизведению информации.

По мнению Килчера, высокие баллы на экзаменах не означают автоматического увольнения практикующих юристов. Реальная работа адвоката включает в себя огромное количество смежных задач: личное общение с клиентами, выстраивание эмоционального контакта, оперативное планирование и координацию процессов в реальном мире. Ведущий иронизирует, что человеку на работе порой приходится совершать действия, недоступные алгоритмам, — например, подняться по эскалатору или лестнице.

Для иллюстрации этой мысли Килчер проводит аналогию со школьным образованием. Если принести на урок математики в младших классах компьютер, он мгновенно уничтожит всех детей в скорости вычисления таблицы умножения. Однако это не делает вычислительную машину великим математиком. Применение человеческих тестов к машинам фиксирует лишь прогресс технологий, но не доказывает достижение сильного искусственного интеллекта (AGI).

⚙️ Технические нюансы: Предобучение против RLHF 11:01

Разработчики использовали две версии нейросети: раннюю модификацию (early GPT-4), представляющую собой чистую предобученную модель, и финальную коммерческую версию (final GPT-4), в которую были жестко зашиты этические фильтры и ограничения безопасности. Килчер в шутку замечает, что с огромным удовольствием пообщался бы именно с ранней, не заблокированной цензурой версией ИИ.

Сам процесс базового обучения стандартен: сеть тренировали предсказывать следующее слово в документе, используя массивы общедоступных интернет-данных и купленные по лицензиям базы текстов. Поскольку базовая модель на сырых данных часто отвечает невпопад и игнорирует контекст, OpenAI применила технологию RLHF — обучение с подкреплением на основе отзывов людей.

Важным нововведением для разработчиков стало разделение запроса на два независимых поля:

Системный параметр (system parameter): глобальная инструкция, задающая жесткую роль для ИИ (например, «ты являешься строгим репетитором по программированию»).
Промпт пользователя (prompt): непосредственная текущая задача (например, «помоги мне найти ошибку в коде»).

Модель строго удерживает контекст из системного параметра на протяжении всей сессии.

Самым ценным техническим открытием во всем отчете Килчер называет признание OpenAI в том, что все фундаментальные интеллектуальные способности нейросети формируются исключительно на этапе предварительного масштабного обучения (pre-training). Метод RLHF никак не повышает качество знаний и не помогает сдавать экзамены — более того, он даже незначительно снижает общую академическую успеваемость модели.

Человеческий фидбек нужен лишь для того, чтобы заставить ИИ вести себя услужливо и избавить пользователя от громоздкого промпт-инжиниринга. По словам Килчера, многие ИТ-специалисты сейчас совершают ошибку, пытаясь обучить нейросети новым навыкам с помощью человеческих отзывов, хотя эта технология предназначена исключительно для корректировки поведения, а не для накопления знаний.

🔒 Завеса коммерческой тайны и законы масштабирования 15:16

Наиболее спорным моментом публикации стал официальный отказ OpenAI публиковать какие-либо технические подробности устройства GPT-4. Ссылаясь на «конкурентную среду и вопросы безопасности крупных моделей», авторы полностью скрыли информацию об архитектуре, количестве параметров, использованном оборудовании, объеме вычислений и методологии формирования датасетов.

Килчер подчеркивает, что формулировка про «безопасность» — это лишь удобный предлог, а реальной причиной является банальное нежелание раскрывать коммерческие карты конкурентам. Он сравнивает OpenAI с крупными фармацевтическими корпорациями: компания потратила колоссальные бюджеты на R&D и теперь защищает свои наработки от быстрого и дешевого копирования другими игроками рынка. Однако это полностью перечеркивает былые лозунги OpenAI о демократизации технологий. По мнению Килчера, реальное благо для человечества состояло бы в передаче опыта всему научному сообществу для безопасного развития индустрии.

Ведущий делится собственным предположением о внутренней архитектуре GPT-4. Он считает, что модель на самом деле не является гигантской и не содержит в себе триллиона параметров, как предсказывали рыночные аналитики. Скорее всего, OpenAI использовала последние открытые архитектурные наработки, такие как flash attention и self-instruct, но просто существенно продлила время обучения на проприетарных данных.

Это экономически выгодно: огромная модель обходится слишком дорого на этапе инференса (обработки повседневных запросов клиентов). Если же взять модель стандартного размера и обучать ее значительно дольше (как это было доказано в исследовании LLaMA от Meta), затраты на инференс остаются низкими, а качество ответов возрастает. Символично, что единственными точными цифрами во всем отчете OpenAI стали тарифы на покупку токенов через API.

Впрочем, законы масштабирования (scaling laws) продемонстрировали выдающийся результат. OpenAI доказала, что может с высочайшей точностью предсказать итоговую производительность GPT-4, основываясь на кривой обучения крошечных тестовых моделей, задействовавших в 10 000 раз меньше вычислительной мощности. Это позволяет крупным инвесторам быть уверенными в окупаемости многомиллионных вложений в суперкомпьютеры.

Кроме того, GPT-4 смогла переломить негативный тренд задачи «hindsight neglect» (пренебрежение прошлыми результатами) в конкурсе Inverse Scaling Prize, где ранее с увеличением размера нейросетей качество их ответов только ухудшалось. Суть теста сводилась к оценке математического ожидания выигрыша в пари (например, истории про персонажа Джона), где модель должна была отделить правильность системного решения от случайного финального проигрыша.

🎭 Корпоративный брендинг и ирония «открытого кода» 23:30

Особое возмущение у Килчера вызвала юридическая директива OpenAI, требующая от научного сообщества цитировать данный технический отчет строго как коллективный труд «OpenAI 2023», полностью скрывая имена сотен конкретных инженеров и исследователей. Ведущий признается, что никогда не любил академические публикации с бесконечными списками соавторов, но корпоративное обезличивание ради продвижения бренда кажется ему еще более отталкивающим.

Сам документ верстался и форматировался в системе LaTeX при непосредственном участии GPT-4. Впрочем, идеализировать автоматизацию рано: на Рисунке 8 в подписи к графику коммерческой производительности (вероятно, TruthfulQA) разработчики случайно оставили забытый технический комментарий системы контроля версий. Килчер иронизирует, что нейросеть пока не способна справиться даже с банальной вычиткой личных логов.

В графе об актуальности данных OpenAI указала, что знания модели ограничены 2021 годом, добавив туманную оговорку «преимущественно» (mostly). Килчер отмечает, что никто в индустрии не понимает истинного значения этого слова. Очевидно, что модель знает гораздо больше, и сторонние эксперты уже подтвердили, что многие экзаменационные тесты были просто слиты в обучающий датасет GPT-4 вопреки заявлениям авторов.

Конкурентная борьба на рынке обострилась до предела:

Компания Anthropic начала закрытое тестирование своей нейросети Claude.
Google экстренно анонсировала запуск Palm API и масштабную интеграцию искусственного интеллекта в экосистему Google Workspace.
OpenAI в ответ выложила в открытый доступ репозиторий OpenAI Evals — фреймворк для оценки языковых моделей, пообещав приоритетный доступ к дефицитному API GPT-4 тем разработчикам, которые поделятся качественными тестами.
Корпорация Microsoft официально призналась, что пользователи поисковика Bing последние пять недель взаимодействовали с ранней кастомизированной версией GPT-4.

Апофеозом корпоративного лицемерия Килчер называет курьезный случай на официальной трансляции OpenAI. Грег Брокман попросил GPT-4 написать торжественное стихотворение в честь долгожданного релиза. Нейросеть сгенерировала текст, где была пафосная строчка о том, что GPT-4 является «моделью с полностью открытым исходным кодом». Килчер откровенно смеется над этой сценой: Брокман в эфире продолжал гордо улыбаться, несмотря на то, что его собственный продукт публично выдал абсолютно ложное утверждение, прямо противоречащее закрытой коммерческой политике компании.

💸 Риски для бизнеса и спешка с релизом 29:35

В текущий момент доступ к функционалу GPT-4 жестко ограничен. Разработчикам приходится записываться в лист ожидания, причем мультимодальный доступ к обработке изображений вообще находится на стадии закрытой альфа-версии для избранных партнеров. Килчер задается вопросом: что именно заставило руководство OpenAI пойти на поспешный релиз сырого продукта, который по факту умеет работать только с текстом через стандартный интерфейс?

Среди возможных причин спешки называют:

Случайную преждевременную утечку информации от топ-менеджера немецкого подразделения Microsoft.
Паническую реакцию на скорые релизы аналогичных API от прямых конкурентов в лице Google и Anthropic.

Однако ключевая долгосрочная проблема для коммерческого сектора лежит в плоскости информационной безопасности. В техническом отчете OpenAI проговорилась, что активно использовала реальные диалоги пользователей из продакшена для дообучения своих систем. И хотя представители компании в соцсетях поспешили выпустить опровержения, Килчер призывает крупный бизнес серьезно взвесить все риски:

«Готовы ли вы как коммерческая организация отправлять конфиденциальные корпоративные данные и переписку своих клиентов на серверы OpenAI, полагаясь исключительно на их честное слово? Они уже нарушали приватность в прошлом».

По мнению ведущего, именно эта дилемма между технологическим удобством и защитой данных станет главным вызовом для корпоративного ИТ-рынка в ближайшие годы.