Эпоха масштабирования: OpenAI о новой парадигме ИИ-рассуждений

Эпоха масштабирования: как законы производительности определяют будущее ИИ 0:13

Развитие искусственного интеллекта за последние годы стало синонимом концепции «scaling laws» — законов масштабирования, согласно которым увеличение объема данных, вычислительных мощностей и количества параметров нейросети ведет к предсказуемому росту ее интеллектуальных способностей. Этот подход, напоминающий закон Мура в полупроводниковой индустрии, позволил пройти путь от ранних языковых моделей до современных систем, способных решать сложнейшие задачи. Тем не менее, сегодня в технологическом сообществе разгораются споры: достигли ли мы предела эффективности этого пути, или же на пороге стоит совершенно новая парадигма развития?

От GPT-2 к эре доминирования масштабирования 1:07

История современного ИИ неразрывно связана с экспериментами компании OpenAI. В ноябре 2019 года лаборатория выпустила GPT-2, модель с 1,5 миллиардами параметров. Однако настоящий прорыв произошел летом следующего года, когда появилась GPT-3, превосходящая предшественницу по размеру более чем в 100 раз.

До этого момента в индустрии отсутствовала уверенность в том, что простое увеличение масштаба принесет пропорциональный прирост «интеллекта». Опасения по поводу возможного снижения отдачи (diminishing returns) сохранялись до января 2020 года, когда Джаред Каплан, Сэм Мандиш и их коллеги из OpenAI опубликовали фундаментальную работу «Scaling Laws for Neural Language Models».

Авторы выделили три «ингредиента» успеха любой модели:

Модель: количество параметров, определяющих внутреннюю структуру нейронной сети.
Данные: объем текстовых токенов, на которых обучается система.
Вычисления: мощность графических процессоров (GPU) и время, затраченное на обучение.

Исследование показало, что при одновременном увеличении всех трех компонентов производительность системы демонстрирует плавный и последовательный рост, описываемый степенным законом. Вскоре стало очевидно, что эффективность зависит от масштаба гораздо сильнее, чем от архитектуры алгоритма. Аналогичные закономерности позже были обнаружены для мультимодальных моделей: генерации изображений, математических вычислений и других направлений.

Гипотеза масштабирования и вклад Chinchilla 3:51

Одним из первых, кто популяризировал концепцию «гипотезы масштабирования» (scaling hypothesis), стал анонимный исследователь под псевдонимом Gwern. Его работа перевела дискуссию из академических лабораторий в мейнстрим, утверждая, что интеллект может оказаться лишь следствием применения огромных вычислений к огромным массивам данных.

Важный шаг вперед в 2022 году сделала команда Google DeepMind. Исследователи проанализировали более 400 моделей разного размера и пришли к неожиданному выводу: предыдущие LLM, включая GPT-3, были «недообученными» (undertrained). Они обладали огромным количеством параметров, но не получали достаточно данных для их полной реализации.

Результатом этого открытия стала модель Chinchilla — система, имеющая менее половины размера GPT-3, но обученная на вчетверо большем объеме данных. Chinchilla значительно превзошла своих более крупных предшественников, доказав, что для достижения оптимального результата нужно соблюдать баланс между параметрами модели и объемом обучающей выборки. Эти выводы легли в основу создания нынешних флагманов индустрии, таких как GPT-4o и Claude 3.5 Sonnet.

Стена масштабирования: тупик или новый горизонт? 6:16

В последнее время внутри отрасли начались серьезные дискуссии о том, не уперлись ли мы в «стену» классических законов масштабирования. Ряд экспертов полагает, что при увеличении моделей и росте затрат на обучение качественные показатели начинают стагнировать.

По мнению некоторых участников рынка, текущая генерация LLM достигла определенного потолка, где простое наращивание вычислительных мощностей перестает приносить соразмерные улучшения интеллектуальных возможностей. Дополнительным риском считается исчерпание высококачественных данных для обучения. Хотя некоторые эксперты полагают, что риск полного окончания данных преувеличен, дефицит качественных текстов остается серьезным логистическим барьером.

Новая парадигма: от обучения к «времени мышления» 7:35

Ответом на замедление привычных кривых масштабирования может стать переход к принципиально новому классу моделей, ориентированных на рассуждение. С выпуском серий моделей o1 и o3 компания OpenAI предложила концепцию «вычислений во время тестирования» (test time compute).

В отличие от классических моделей, системы o1 и o3 обучаются «обдумывать» решение сложных задач, используя цепочки рассуждений (Chain of Thought). Исследователи обнаружили: чем дольше модель может размышлять над проблемой, тем выше качество ее результата. В модели o3 этот подход позволил побить прежние рекорды в программировании, математике и PhD-уровне научных вопросов.

Основные выводы по новой стратегии развития:

Вместо бесконечного увеличения размера модели при пред-обучении (pre-training) фокус смещается на использование вычислительных мощностей в момент получения запроса.
Этот метод позволяет масштабировать интеллект модели «на лету» в зависимости от сложности конкретной задачи.
Данный переход открывает новую эру масштабирования, где потенциал способностей ИИ может оказаться значительно выше ожидаемого.

Несмотря на то, что для классических языковых моделей «мидгейм» уже наступил, в области других модальностей — робототехники, моделирования белков и физических процессов — мы все еще находимся в самом начале пути.