Й Кэпитал и будущее ИИ: как превратить инференс в интеллект и преодолеть «стену данных»

В стенах знаменитого офиса Pioneer «Й Кэпитал» (Y Combinator) состоялось открытие первого в истории YC Paper Club. Мероприятие собрало уникальное сообщество: от исследователей с десятками тысяч цитирований до основателей стартапов, привлекших более 50 миллионов долларов инвестиций, чтобы обсудить передовые разработки в области инференса, робототехники и фундаментальных теорий машинного обучения.

🚀 Возрождение Pioneer и дух раннего OpenAI 0:07

Ведущий мероприятия, Аман, открыл встречу с ностальгического экскурса в историю YC. Он напомнил, что именно здесь, в Pioneer, проходил батч Winter 2016, который оказался аномально успешным: из 140 компаний того набора 10–15 стали «единорогами» . Среди них — WPY, Astronis, Deepgram.

Аман поделился личными воспоминаниями о том времени:

В этом же зале в 2016 году часто можно было встретить Андрея Карпатого, Войцеха Зарембу и Грега Брокмана.
Они как раз основывали OpenAI и находились на настолько ранней стадии, что спрашивали других фаундеров о том, над какими проблемами им стоит работать .
Цель нынешнего Paper Club — воссоздать ту же атмосферу плотного взаимодействия между фундаментальной наукой и практическим предпринимательством.

По мнению Амана, около половины всех талантов в сфере ИИ в районе залива Сан-Франциско сосредоточены в городе (OpenAI, Anthropic, Cursor), но другая половина находится в Пало-Альто и окрестностях (Google DeepMind, Tesla, xAI, Thinking Machines), и YC стремится объединить эти сообщества на своей площадке .

🏎️ Инференс как новая «способность» модели 3:38

Танишк, аспирант Стэнфорда, представил доклад о проекте Speculative Speculative Decoding (SSD). Его главный тезис заключается в том, что в ближайшие годы инференс перестанет восприниматься просто как статья расходов или вопрос удобства.

Основные идеи Танишка:

Инференс — это интеллект. Если производительность системы масштабируется вместе с объемом «размышлений» (compute-at-test-time), то скорость генерации токенов напрямую определяет пиковый уровень интеллекта, который модель может выдать пользователю .
Экономика. Затраты на инференс при обслуживании миллиардов пользователей или мощных агентов уже начинают доминировать над затратами на обучение . По его словам, обучение с подкреплением (RL) по сути является «оберткой над инференсом», и требования RL к вычислительным мощностям уже начинают превышать требования претрейнинга .

Механика Speculative Speculative Decoding (SSD)

Обычное спекулятивное декодирование использует маленькую модель-черновик (draft model) для генерации нескольких токенов, которые затем проверяются большой целевой моделью (target model) в один проход . Это позволяет менять вычислительную мощность (FLOPS) на снижение задержки (latency).

Однако в классической схеме есть узкое место: последовательная зависимость. Черновик должен закончить работу, прежде чем начнется проверка . Алгоритм SSD решает эту проблему через параллелизацию:

Пока большая модель проверяет текущую пачку токенов, маленькая модель уже начинает предсказывать наиболее вероятные результаты проверки и готовить следующий черновик .
По утверждению Танишка, удается правильно предсказать результат проверки в 80–90% случаев .
Результат: SSD позволяет достичь скорости в 300 токенов в секунду для Llama 3 70B на четырех видеокартах H100 .

🤖 Диффузионные модели в управлении роботами 17:32

Станнис, исследователь из Google DeepMind, представил работу по Diffusion Model Predictive Control (DMPC). Он отметил, что хотя диффузионные модели произвели революцию в генерации изображений, их применение в робототехнике открывает новые возможности для адаптивного управления.

Ключевые преимущества подхода DMPC, по словам Станниса:

Минимизация ошибок. Традиционные модели динамики страдают от накопления ошибок при долгосрочном планировании. Диффузия позволяет моделировать многошаговые траектории более точно .
Адаптация в реальном времени. Благодаря разделению на «предложение действий» (action proposal) и «модель динамики», систему можно быстро адаптировать к новым условиям .
Пример с «травмой». В ходе экспериментов на модели робота-шагохода (Walker) исследователи симулировали поломку лодыжки. Благодаря DMPC модель смогла адаптироваться к измененной динамике тела прямо во время работы, просто обновив модель динамики на небольшом количестве новых данных .

Станнис подчеркнул, что этот метод позволяет использовать видеоданные (без разметки действий) для обучения, что критически важно, так как данные — это главное «бутылочное горлышко» в современной робототехнике .

🌍 Мир внутри нейросети: архитектура JEPA 29:50

Айзек представил доклад о Layered World Models, ссылаясь на работы группы Яна Лекуна. Он назвал создание моделей мира «вопросом на миллиард долларов», напомнив о недавних крупных инвестициях в компании, занимающиеся именно этим направлением .

Основные тезисы обсуждения:

Model-Free vs Model-Based. В «бесмодельном» обучении нейросеть просто сопоставляет входные данные с действием, не имея представления о будущем. В «модельном» подходе у агента есть внутренняя симуляция реальности .
Проблема коллапса. При обучении моделей мира в латентном пространстве (latent space) часто возникает ситуация, когда модель начинает выдавать одинаковые, тривиальные предсказания для любых действий .
Решение SIGG. Группа Лекуна предложила изящный метод регуляризации под названием SIGG (Sketching, Isotropic, Gaussian). Он заставляет распределение скрытых представлений (embeddings) оставаться «здоровым» — изотропным и гауссовым .

Одним из самых интересных свойств таких моделей Айзек назвал «квантификацию сюрприза». Модель мира позволяет агенту точно определять момент, когда реальность перестает соответствовать его ожиданиям (например, если объект внезапно телепортировался или изменил цвет). Это дает встроенную метрику неуверенности (uncertainty estimation), которой лишены обычные архитектуры .

🧠 Глубокое обучение больше не загадка? 43:21

Эш, сооснователь стартапа Q Labs, представил разбор статьи Эндрю Гордона Уилсона, которая утверждает: глубокое обучение не так таинственно, как принято считать.

Темы, которые долгое время считались парадоксами, находят объяснение в классической теории :

Оверпараметризация. Почему огромные модели с миллиардами параметров не переобучаются? Согласно теории PAC-Bayes, с ростом числа параметров объем «плоских минимумов» в пространстве весов растет экспоненциально . Плоские минимумы легче сжимаются, что ведет к лучшей обобщающей способности .
Мягкие индуктивные предубеждения (Soft Inductive Biases). Нейросети способны запоминать случайный шум, но при работе со структурированными данными они естественным образом отдают предпочтение более простым, «сжимаемым» решениям .

Эш считает, что понимание этих механизмов позволит инженерам не просто полагаться на масштабирование (scaling), но и осознанно оптимизировать модели для достижения эффективности обучения, сравнимой с человеческой .

📉 Преодоление «стены данных» через бесконечные вычисления 51:24

Завершающий доклад Куана был посвящен проблеме нехватки данных. Если интернет-данные растут на 3% в год, а вычислительные мощности для обучения ИИ — в 4–5 раз, то скоро мы окажемся в ситуации, когда данных будет катастрофически мало по сравнению с доступным железом .

Куан предложил рецепты для мира, где «вычисления бесконечны, а данные ограничены» :

Агрессивная регуляризация. Использование коэффициентов Weight Decay, которые в 30 раз превышают стандартные значения, позволяет продолжать обучение на одних и тех же данных (многоэпоховое обучение) без переобучения .
Ансамблирование. Вместо обучения одной гигантской модели эффективнее обучить ансамбль из множества маленьких моделей. Это дает чистый выигрыш в эффективности использования данных .
Дистилляция. Можно обучить огромный ансамбль, а затем «сжать» его знания в одну компактную модель. По словам Куана, такая модель сохраняет около 83% преимуществ ансамбля в качестве предсказаний .
Результат. Сочетание этих методов (Joint Scaling Recipe) позволяет добиться пятикратного (5x) улучшения эффективности использования данных . В некоторых задачах, например при дообучении моделей на математических данных, выигрыш в эффективности достигал 17x .

В завершение встречи Аман подчеркнул, что YC Paper Club станет регулярным форматом, призванным объединить теоретические прорывы с практическими задачами стартапов .