Эпоха масштабирования: OpenAI о новой парадигме ИИ-рассуждений

Y Combinator 40 тыс. 10 мин 3 мин 23.01.2025
Главное

Эпоха масштабирования: как законы производительности определяют будущее ИИ 0:13

Развитие искусственного интеллекта за последние годы стало синонимом концепции «scaling laws» — законов масштабирования, согласно которым увеличение объема данных, вычислительных мощностей и количества параметров нейросети ведет к предсказуемому росту ее интеллектуальных способностей. Этот подход, напоминающий закон Мура в полупроводниковой индустрии, позволил пройти путь от ранних языковых моделей до современных систем, способных решать сложнейшие задачи. Тем не менее, сегодня в технологическом сообществе разгораются споры: достигли ли мы предела эффективности этого пути, или же на пороге стоит совершенно новая парадигма развития?

От GPT-2 к эре доминирования масштабирования 1:07

История современного ИИ неразрывно связана с экспериментами компании OpenAI. В ноябре 2019 года лаборатория выпустила GPT-2, модель с 1,5 миллиардами параметров. Однако настоящий прорыв произошел летом следующего года, когда появилась GPT-3, превосходящая предшественницу по размеру более чем в 100 раз.

До этого момента в индустрии отсутствовала уверенность в том, что простое увеличение масштаба принесет пропорциональный прирост «интеллекта». Опасения по поводу возможного снижения отдачи (diminishing returns) сохранялись до января 2020 года, когда Джаред Каплан, Сэм Мандиш и их коллеги из OpenAI опубликовали фундаментальную работу «Scaling Laws for Neural Language Models».

Авторы выделили три «ингредиента» успеха любой модели:

  1. Модель: количество параметров, определяющих внутреннюю структуру нейронной сети.
  2. Данные: объем текстовых токенов, на которых обучается система.
  3. Вычисления: мощность графических процессоров (GPU) и время, затраченное на обучение.

Исследование показало, что при одновременном увеличении всех трех компонентов производительность системы демонстрирует плавный и последовательный рост, описываемый степенным законом. Вскоре стало очевидно, что эффективность зависит от масштаба гораздо сильнее, чем от архитектуры алгоритма. Аналогичные закономерности позже были обнаружены для мультимодальных моделей: генерации изображений, математических вычислений и других направлений.

Гипотеза масштабирования и вклад Chinchilla 3:51

Одним из первых, кто популяризировал концепцию «гипотезы масштабирования» (scaling hypothesis), стал анонимный исследователь под псевдонимом Gwern. Его работа перевела дискуссию из академических лабораторий в мейнстрим, утверждая, что интеллект может оказаться лишь следствием применения огромных вычислений к огромным массивам данных.

Важный шаг вперед в 2022 году сделала команда Google DeepMind. Исследователи проанализировали более 400 моделей разного размера и пришли к неожиданному выводу: предыдущие LLM, включая GPT-3, были «недообученными» (undertrained). Они обладали огромным количеством параметров, но не получали достаточно данных для их полной реализации.

Результатом этого открытия стала модель Chinchilla — система, имеющая менее половины размера GPT-3, но обученная на вчетверо большем объеме данных. Chinchilla значительно превзошла своих более крупных предшественников, доказав, что для достижения оптимального результата нужно соблюдать баланс между параметрами модели и объемом обучающей выборки. Эти выводы легли в основу создания нынешних флагманов индустрии, таких как GPT-4o и Claude 3.5 Sonnet.

Стена масштабирования: тупик или новый горизонт? 6:16

В последнее время внутри отрасли начались серьезные дискуссии о том, не уперлись ли мы в «стену» классических законов масштабирования. Ряд экспертов полагает, что при увеличении моделей и росте затрат на обучение качественные показатели начинают стагнировать.

По мнению некоторых участников рынка, текущая генерация LLM достигла определенного потолка, где простое наращивание вычислительных мощностей перестает приносить соразмерные улучшения интеллектуальных возможностей. Дополнительным риском считается исчерпание высококачественных данных для обучения. Хотя некоторые эксперты полагают, что риск полного окончания данных преувеличен, дефицит качественных текстов остается серьезным логистическим барьером.

Новая парадигма: от обучения к «времени мышления» 7:35

Ответом на замедление привычных кривых масштабирования может стать переход к принципиально новому классу моделей, ориентированных на рассуждение. С выпуском серий моделей o1 и o3 компания OpenAI предложила концепцию «вычислений во время тестирования» (test time compute).

В отличие от классических моделей, системы o1 и o3 обучаются «обдумывать» решение сложных задач, используя цепочки рассуждений (Chain of Thought). Исследователи обнаружили: чем дольше модель может размышлять над проблемой, тем выше качество ее результата. В модели o3 этот подход позволил побить прежние рекорды в программировании, математике и PhD-уровне научных вопросов.

Основные выводы по новой стратегии развития:

Несмотря на то, что для классических языковых моделей «мидгейм» уже наступил, в области других модальностей — робототехники, моделирования белков и физических процессов — мы все еще находимся в самом начале пути.

💬 Цитаты

«Может быть, интеллект — это просто большое количество вычислений, примененных к большому количеству данных и параметров.»

«Обучение оптимальной модели — это не только увеличение её размера, но и наличие достаточного количества данных.»

Ведущий Y Combinator 05:35
👥 Спикер
📖 Термины
Scaling laws (законы масштабирования)
Эмпирические зависимости, показывающие предсказуемый рост качества модели при увеличении параметров, данных и вычислительных ресурсов.
Chain of Thought (цепочка рассуждений)
Метод обучения модели, при котором она пошагово анализирует сложную задачу перед выдачей окончательного ответа.
Test time compute
Вычислительные ресурсы, выделяемые модели для размышления над конкретной задачей в процессе генерации ответа.
Tokens
Единицы текста (слова или части слов), которые модель использует для обработки данных.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2019 Выпуск модели GPT-2 с 1,5 млрд параметров.
  2. Январь 2020 Публикация работы OpenAI о законах масштабирования.
  3. 2022 Google DeepMind публикует исследование Chinchilla.
  4. Наши дни Переход к моделям с «вычислениями во время тестирования» (o1, o3).
⚖️ Другая сторона
Искусственный интеллект OpenAI Google DeepMind scaling laws LLM o3