Ник Гэнон рассчитал объем данных для обучения GPT-5

Хватит ли человечеству высококачественных данных, чтобы совершить финальный рывок к сильному искусственному интеллекту (AGI) путем простого масштабирования существующих архитектур? В рамках подкаста The Cognitive Revolution ведущие Нейтан Лабенц и Эрик Торнберг вместе с дата-сайентистом и ИИ-скаутом Ником Гэноном провели подробный разбор объемов информации, циркулирующей в мире. Они сопоставили потребности будущих нейросетей уровня GPT-5 с реальными запасами текстов, видеоматериалов, генетических кодов и синтетических логов, чтобы наглядно показать границы грядущей технологической гонки.

📉 Масштабирование ИИ и гипотеза Илии Суцкевера 4:12

Современный прогресс в сфере больших языковых моделей во многом опирается на так называемую гипотезу масштабирования (scaling hypothesis). Ник Гэнон отмечает, что зачастую представления людей о развитии технологий формируются под влиянием рыночных настроений толпы, а не фундаментального анализа. Вместо этого исследователь предлагает опираться на объяснительную парадигму, лежащую в основе стратегий таких ИИ-гигантов, как OpenAI, Google DeepMind и Anthropic.

По словам Гэнона, бывший главный научный сотрудник OpenAI Илия Суцкевер сформулировал два простых постулата, которые определяют логику этой парадигмы:

Принцип масштаба: если физический размер или емкость «мозга» (модели) увеличивается, то увеличиваются и его интеллектуальные способности.
Субстратная независимость интеллекта: существует функциональный паритет между биологическими и искусственными нейронами. Интеллект не обязательно должен иметь углеродную основу; кремниевые полупроводники могут справляться с этой задачей не хуже человеческой плоти.

Если эти положения верны, то создание ИИ человеческого уровня превращается из абстрактной научной проблемы в решаемую инженерную задачу. В подтверждение этой концепции спикеры приводят цитату инженера OpenAI Джеймсона Беккера, который занимается построением распределенных вычислительных кластеров:

«Для меня становится совершенно очевидным, что эти модели с невероятной точностью аппроксимируют свои наборы данных. На практике это выражается в том, что при достаточно длительном обучении на одном и том же датасете практически любая модель с достаточным количеством весов и временем обучения сходится к одной и той же точке».

В рамках этой экстремальной интерпретации гипотезы масштабирования любые улучшения в архитектуре алгоритмов или качестве данных можно рассматривать просто как способ снизить требования к масштабу вычислений для достижения человеческого уровня обобщения. Примечательно, что, как подчеркивает Нейтан Лабенц, лидеры ведущих лабораторий (включая Сэма Альтмана, Илию Суцкевера, Демиса Хассабиса, Шейна Легга и Дарио Амодеи) публично не выражают серьезного беспокойства по поводу возможной нехватки данных. Все они сходятся во мнении, что эта проблема преодолима.

🧮 От GPT-3 к GPT-5: бюджеты, токены и законы Chinchilla 8:30

Чтобы оценить масштабы будущих систем, Ник Гэнон предлагает проанализировать траекторию развития моделей OpenAI от GPT-3 до гипотетической GPT-5. Модель GPT-3 была обучена примерно на 1 триллионе токенов (около 600 гигабайт текста). Официальные параметры GPT-4 не раскрывались, однако, согласно оценкам аналитического агентства SemiAnalysis, модель представляет собой разреженную архитектуру Mixture of Experts (MoE) из 16 экспертных блоков по 111 миллиардов параметров в каждом (всего около 1,8 триллиона параметров). При этом на один прямой проход активируется около 270 миллиардов параметров. Набор данных для GPT-4 оценивается примерно в 10 триллионов токенов, дополненных еще 2 триллионами графических токенов для мультимодального энкодера зрения.

Экстраполяция текущих тенденций позволяет очертить контуры GPT-5:

Объем обучающей выборки: ожидается на уровне 100 триллионов токенов (байт или слов), что в 10 раз превышает показатели GPT-4.
Вычислительный бюджет: согласно законам масштабирования Chinchilla, десятикратное увеличение объема данных требует пропорционального увеличения количества параметров. Перемножение этих факторов дает рост необходимых вычислительных мощностей примерно в 100 раз.
Финансовые затраты: если обучение GPT-3 «с нуля», согласно заявлениям компании Mosaic, стоило менее $500 000, а чистые затраты на запуск видеокарт для финального обучения GPT-4 составляли от $50 млн до $100 млн, то стократное увеличение вычислений выводит бюджет GPT-5 на уровень от $1 млрд до $2 млрд за один тренировочный запуск.

Спикеры отмечают, что текущие доходы корпорации Nvidia и анонсированные компанией Meta закупки оборудования подтверждают реальность движения индустрии в этом направлении. При этом современная практика ИИ-лабораторий отошла от строгой оптимальности Chinchilla. Например, модель Llama 2 (версия 7B) была обучена на 2 триллионах токенов, что существенно превышает расчетный оптимум. Разработчики идут на сознательное «переобучение» моделей, чтобы уменьшить количество параметров и тем самым снизить задержки и финансовые затраты на стадии инференса.

Дополнительным фактором, корректирующим соотношение данных и вычислений, становятся новые алгоритмические решения. Ник Гэнон указывает на технологию кольцевого внимания (Ring Attention). Предположительно, именно она используется в моделях Gemini 1.5 и Claude 3 Opus для достижения контекстного окна размером от 1 млн до 100 млн токенов с идеальным удержанием информации.

Кольцевое внимание накладывает специфическую нагрузку на вычисления. По расчетам Гэнона, если взять модель с 1 триллионом параметров и обучать ее сначала на контекстном окне в 4 000 токенов, а затем перевести на окно в 1 миллион токенов, то для длинного контекста потребуется в 5,6 раза больше вычислительной мощности. Квадратичный рост затрат на механизм внимания частично компенсируется резким увеличением количества токенов в одном батче, что снижает общее число шагов по обновлению весов сети.

🌊 Бычий сценарий: мировой океан сырых данных 18:11

Задаваясь вопросом, где найти необходимые для GPT-5 100 триллионов высококачественных токенов, Ник Гэнон обращается к глобальной статистике производства информации. По оценкам исследователей, в 2020 году человечество сгенерировало около 64 зеттабайт (10^22 байт) данных. Общий объем цифровой информации удваивается примерно каждые три года.

Целевые 100 триллионов слов составляют ничтожную долю от этого массива — всего одну стомиллионную часть от совокупного сырого трафика планеты. Названный объем сырых данных в 13 000 раз превышает совокупное количество слов, когда-либо произнесенных всеми 100 миллиардами живших на Земле людей за всю историю. В этот океан входят логи умных зубных щеток, телеметрия IoT-устройств и колоссальный объем электронной почты.

Чтобы продемонстрировать избыточность сырых каналов, Гэнон и Лабенц приводят несколько наглядных примеров:

Электронная почта: ежедневно в мире отправляется около 333 миллиардов писем. Если принять средний объем одного письма за 300 токенов, годовой трафик составит от 10^16 до 10^17 токенов. Таким образом, если хотя бы одно из 1 000 электронных писем окажется пригодным и качественным текстом, этого потока в одиночку хватит для покрытия дефицита GPT-5.
Платформа Twitter (X): согласно исследовательской работе «Big Data: Astronomical or Genomical?», Twitter генерирует около 33 терабайт текста в год при объеме около 1 миллиарда твитов в день. Суммарный годовой объем твитов составляет порядка 3 * 10^13 токенов, чего достаточно для обучения двух-трех моделей класса GPT-4 или покрытия трети потребностей GPT-5.

Особый потенциал спикеры видят в мультимодальных данных, лидирующие позиции среди которых занимают астрономия и видеоплатформа YouTube. Ежегодно в каждой из этих сфер генерируется от 1 до 2 эксабайт данных. На YouTube каждую минуту загружаются сотни тысяч часов контента (суммарно 500 млн часов в год), а космические телескопы Hubble и James Webb поставляют сопоставимые массивы снимков.

При переходе от пикселей к текстовым эквивалентам происходит значительное сжатие информации. Гэнон приводит в пример работу мультимодальных сетей GPT-4V и Claude 3 Haiku. Изображение низкого разрешения (например, 256x256 пикселей, что эквивалентно примерно 50 000 байт) оценивается моделью GPT-4V всего в 85 токенов. Это означает тысячекратный коэффициент компрессии пикселей в токены.

Если применить этот «токеновый дефлятор» 1000:1 к годовому объему YouTube (10^18 байт), мы получим около 10^15 токенов контента. Это в 10 раз превышает целевой показатель для GPT-5. По расчетам Ника Гэнона, полное обучение нейросети на всем объеме токенизированного YouTube по законам Chinchilla обошлось бы примерно в $100 млрд. Такая сумма сопоставима со свободными денежными средствами на балансах крупнейших технологических компаний (Apple, Microsoft, Alphabet, Meta), что делает полную обработку видеохостинга потенциально выполнимой финансовой задачей.

🧬 Модальности будущего: ДНК, климат и скрытый интернет 29:38

Еще более масштабным источником информации выступает сфера генетики. Объем секвенированных геномных данных в мире составляет около 40 эксабайт в год, причем этот показатель удваивается каждые два года. Ник Гэнон замечает, что этот массив данных в миллион раз превышает текстовую выборку, необходимую для обучения GPT-4. Размер одного человеческого генома составляет около 3,4 млрд пар оснований. Для достижения эксабайтных масштабов требуется секвенировать около миллиарда организмов в год, что вполне соотносится с текущими глобальными мощностями медицинских и научных лабораторий.

В качестве примера успешного освоения этой модальности Нейтан Лабенц приводит биологическую модель Evo, разработанную Институтом Arc и Стэнфордским университетом. Модель Evo с 7 миллиардами параметров была обучена на открытом датасете объемом 300 миллиардов токенов, содержащем 2,7 миллиона геномов прокариот и фагов.

По мнению собеседников, интеграция биологических данных в универсальные языковые модели может привести к революционным результатам. Настоящим прорывом станет появление у ИИ «врожденного» понимания структуры ДНК на уровне, недоступном для человеческой интуиции. Ключевым элементом здесь может стать методология улучшения описаний (recaptioning), которую OpenAI успешно использовала в своих мультимодальных проектах. Интерливинг генетических последовательностей, протеомных данных, регуляторных РНК, результатов томографии и медицинских карт пациентов позволит создать комплексную систему, которая будет «разговаривать» на языке биологии так же свободно, как на человеческих языках.

Помимо генетики, планета буквально насыщена другими специализированными массивами информации:

Климатические данные: Всемирный центр климатических данных хранит объем метеорологической информации, эквивалентный 600 корпусам обучения GPT-4. На этой базе Google DeepMind разработал модель GraphCast, способную прогнозировать сотни погодных переменных на 10 дней вперед с точностью до 0,25 градуса менее чем за минуту. Данные поступают от спутников, датчиков на самолетах и кораблях, буев, метеозондов и радаров.
Финансовый сектор: колоссальные закрытые базы данных используются для высокочастотной торговли. Спикеры упоминают Питера Брауна — одного из первых учеников Джеффри Хинтона, который возглавляет фонд Renaissance Technologies (знаменитый фонд Medallion демонстрирует среднюю доходность около 37% годовых на протяжении десятилетий). По информации Ника Гэнона, фонд активно закупает массивы ускорителей Nvidia H100 для обработки рыночных данных.
Скрытый интернет (Deep Web): поисковая система Google в каждый момент времени индексирует около 50 миллиардов веб-страниц. Оценки размера неиндексированной части интернета варьируются от 25 до 2 000 раз больше открытой сети. Это гигантские архивы, старые твиты и корпоративные документы, которые технически доступны, но не отображаются в стандартных поисковиках.
Исходный код: открытый датасет BigCode на платформе Hugging Face содержит 6 терабайт сырых данных, или около 3 терабайт после полной очистки от дубликатов. Данный объем составляет около 30% от выборки GPT-4 или около 3% от требований GPT-5.

🤖 Синтетические данные и феномен самовоспроизводства 41:52

В условиях потенциального исчерпания естественных текстов на первый план выходит генерация данных самими ИИ-системами. По оценкам Ника Гэнона, экосистема ChatGPT при условных 25 миллионах активных пользователей в день, совершающих в среднем по 15 запросов объемом около 1 000 токенов ответа, генерирует за год от 2,7 до 4,5 триллионов слов. Этот объем текстовой массы уже превышает размеры выборки, на которой обучалась сама модель, и позволяет за один год сформировать массив для обучения нескольких новых сетей класса GPT-4.

Собеседники сходятся во мнении, что исследователи ИИ часто реагируют на вопрос о нехватке данных с улыбкой, намекая, что проблема синтетического контента ими решена. Однако ключевым фактором остается качество генерации. Нейтан Лабенц признается, что высокое качество работы модели Claude 3 заставило его пересмотреть взгляды на перспективность процессов фильтрации и улучшения данных ИИ-системами.

Наиболее эффективной сферой применения синтетических данных Ник Гэнон считает программирование. В коде существует возможность выстраивания классического игрового цикла «self-play», аналогичного стратегиям серий AlphaGo, AlphaZero и AlphaGeometry от DeepMind. Модель может самостоятельно создавать программный код, изменять его, запускать на исполнение в изолированной среде и мгновенно верифицировать результат на основе логов ошибок.

По словам Гэнона, если цель состоит в достижении сверхчеловеческих результатов, исследователям придется выбросить большую часть созданных человеком данных в мусорное ведро и перейти к горизонтальному масштабированию специализированных систем, поддающихся объективной оценке по рейтингу ELO.

Другим направлением «взлома» ограничений масштаба спикеры называют перенос вычислений на стадию инференса. Ник Гэнон ссылается на работы исследователя Ноама Брауна, отмечая, что запуск алгоритмов поиска по дереву Монте-Карло в момент генерации ответа заставляет модель думать дольше. В этот момент относительно небольшая сеть по своим аналитическим возможностям начинает приближаться к статической модели, превосходящей ее по числу параметров в 10 000 раз.

В финале обсуждения синтетического контента Нейтан Лабенц формулирует гипотезу рекурсивного самосовершенствования (RSI). Модель GPT-5 потенциально способна генерировать настолько сложные архитектурные и программные задачи, которые она изначально не сможет решить, но через попытки их преодоления и последующее дообучение на успешных примерах замкнет цикл истинного технологического взлета. Предыдущие исследования показывали, что циклы самокритики без переобучения весов приводили к деградации ответов или плато уже после 3–5 раундов. Закрытие же петли через полноценное дообучение на проверенных синтетических логах может качественно изменить динамику прогресса.

🐻 Медвежий сценарий: дефицит качества и мега-инвестиции будущего 45:31

Несмотря на колоссальные цифры сырого трафика, пессимистичный взгляд на проблему опирается на жесткий критерий качества информации. Ник Гэнон ссылается на известное исследование аналитического центра Epoch AI под названием «Will we run out of data?». Авторы работы утверждают, что запас высококачественных общедоступных текстовых данных на Земле будет исчерпан в период между 2024 и 2026 годами.

По оценкам Epoch AI, весь мировой фонд качественных текстов составляет около 10 триллионов слов. Это число практически совпадает с объемом выборки GPT-4. Для сравнения спикеры указывают, что весь текстовый массив Библиотеки Конгресса США оценивается ровно в те же 10 триллионов слов.

Если индустрия продолжит двигаться исключительно по пути линейного расширения текстовых выборок, она столкнется с физическим барьером. Гэнон предлагает рассмотреть ситуацию методом сверху вниз и рассчитать параметры максимально возможного тренировочного запуска, который человечество способно реализовать экономически. По оценкам исследователя Карла Шульмана, верхний предел стоимости одного проекта обучения ИИ составляет около $1 трлн, что эквивалентно примерно 1% от текущего мирового валового продукта. В истории человечества есть подобные прецеденты: например, США в рамках программы «Аполлон» в пиковые периоды Холодной войны расходовали до 2,2% своего ВВП.

По мнению Гэнона, проект стоимостью $1 трлн находится на грани экономической реальности. Бюджет Министерства обороны США составляет около $800 млрд в год. Если эти средства на протяжении 5–10 лет будут целенаправленно направляться на строительство полупроводниковых фабрик и закупку чипов, создание подобного кластера станет возможным. Реализовать проект такого масштаба на сегодняшний день способны только два человека в мире — Джо Байден или Си Цзиньпин. Слухи о попытках Сэма Альтмана привлечь $7 трлн из ближневосточных фондов также укладываются в логику подготовки к финальному силовому штурму AGI.

Экстраполяция инвестиционных трендов, закона Мура и алгоритмических улучшений позволяет Нику Гэнону составить прогноз для этого условного мега-запуска:

Сроки: проект стоимостью $1 трлн может быть реализован в период между 2029 и 2033 годами. Прогноз опирается на тот факт, что бюджеты самых дорогих тренировочных запусков удваиваются примерно каждые два года (начиная с 2012 года).
Технологические факторы: учитывается закон ускорения вычислений Рэймонда Курцвейла, а также рост эффективности алгоритмов, при котором объем вычислений для достижения фиксированного результата на бенчмарках сокращается вдвое каждые 9 месяцев.
Требования к данным: для обеспечения вычислений на таком уровне потребуется около 85 квадриллионов токенов. Это в 8 500 раз превышает объем данных GPT-4.

Для сопоставления масштабов Ник Гэнон приводит параметры человеческого мозга. Пропускная способность каналов восприятия информации человеком оценивается примерно в 11 миллионов бит в секунду. За 70 лет жизни человеческий мозг успевает обработать от 2 до 3 квадриллионов байт информации. Набор данных GPT-4 составляет примерно 1/300–1/200 от этого пожизненного объема. Проект обучения за $1 трлн потребует пропустить через нейросеть объем данных, превышающий емкость человеческого опыта за всю жизнь в 8 500 раз.

Таким образом, резюмируют авторы подкаста, если гипотеза масштабирования верна, достижение человеческого уровня мышления произойдет в тот момент, когда объемы обучающих выборок сравняются с масштабами данных, проходящих через человеческий мозг. Главная интрига заключается в том, удастся ли ИИ-лабораториям выстроить такую учебную программу и механизмы синтеза данных, которые запустят глубокое понимание моделей до того, как исчерпаются физические ресурсы планеты.