Как построить генеративные модели уровня Sora в условиях стартапа

Как построить генеративные модели уровня Sora: уроки Y Combinator 0:41

В мире искусственного интеллекта доминирует мнение, что для создания передовых базовых моделей (foundation models) необходимы миллиарды долларов и огромные дата-центры. Однако кейсы стартапов из текущего батча Y Combinator (W24) доказывают обратное: небольшие команды энтузиастов способны совершать прорывы, обладая ограниченными ресурсами, но глубокими знаниями и нестандартным подходом к данным. В этом выпуске подкаста «The Light Cone» участники обсуждают, как именно молодые стартапы «взламывают» индустрию ИИ, конкурируя с гигантами вроде OpenAI.

🎥 Феномен Sora и природа видеогенерации 0:53

Видеогенерация — это следующий рубеж после GPT-4 и Midjourney. Модели уровня Sora демонстрируют невероятные успехи в имитации физики реального мира, хотя до идеала ещё далеко.

Технологический скачок: Sora объединяет возможности трансформеров (архитектура для текста) и диффузионных моделей (генерация изображений).
SpaceTime patches: Ключевое решение OpenAI — обучение на видео с использованием так называемых «пространственно-временных патчей». Это позволяет модели понимать консистентность объектов во времени, что раньше было камнем преткновения.
Сложность: По оценкам участников, обучение таких моделей требует колоссальных ресурсов — возможно, на порядок больше, чем для GPT-4, что подразумевает использование десятков тысяч GPU.

Тем не менее, в видео всё ещё встречаются артефакты: ошибки в геометрии, некорректное движение объектов или «плавающие» части изображения.

🛠 Как стартапы «хакают» создание моделей 9:35

Для создания фундаментальной модели необходимы три компонента: данные, вычислительные мощности и экспертиза. Успешные стартапы Y Combinator находят способы оптимизировать каждый из них.

Оптимизация данных и вычислений

Качество важнее объема: Команда Metalware, создающая ИИ-копилот для инженеров-конструкторов, обучала модель на сканированных учебниках, а не на гигантских массивах «сырых» данных.
Малые модели: Вместо неподъемных архитектур вроде GPT-4, они использовали модель GPT-2.5 (около 1 млрд параметров), что позволило эффективно решать узкоспециализированные задачи.
Синтетические данные: Вопреки первоначальному скепсису (считалось, что модель не может учиться на «собственной крови»), синтетические данные стали мощным драйвером качества, особенно в задачах программирования.

Использование инфраструктуры

Благодаря партнерству Y Combinator с Microsoft Azure, компании батча получают быстрый доступ к GPU-кластерам, что позволяет им итерировать свои идеи в 100 раз быстрее, чем это возможно вне программы.

🧬 ИИ за пределами развлечений: от биологии до мозга 24:19

Генеративные модели — это универсальные аппроксиматоры функций. Это значит, что они могут имитировать любые процессы, подчиняющиеся законам физики или математики.

Proteins: Стартап TheUseBio применяет генеративный ИИ для проектирования новых молекул и лекарственных препаратов.
Neurotech: Компания A-Pyramidal работает над моделью для человеческого мозга, предсказывающей EEG-сигналы. Это открывает перспективы для ранней диагностики инсультов и даже интерфейсов «мозг-компьютер».
Weather: Стартап Atmo создал модель прогнозирования погоды, которая работает эффективнее государственных систем, стоивших более миллиарда долларов, благодаря переходу от физических формул к машинному обучению.

🚀 Советы будущим фаундерам 18:28

Главный посыл дискуссии: экспертиза не так недоступна, как кажется. Многие основатели успешных ИИ-стартапов не имели профильного PhD, а просто потратили несколько месяцев на глубокое изучение актуальных научных публикаций.

Не бойтесь пивотов: Стивен Доши, основатель Playground, полностью перепрофилировал свой стартап (ранее это был Mixpanel) на ИИ, просто обучившись по статьям, и сегодня его модель конкурирует с Midjourney.
Выбирайте нишу: Вместо того чтобы пытаться превзойти OpenAI в создании «общего ИИ», стартапам выгоднее специализироваться на ценных вертикалях, где текущие модели еще не адаптированы.

По мнению спикеров, сейчас — лучшее время для погружения в ИИ, так как поле еще настолько ново, что любой усердный исследователь может выйти на передний край науки за 6–9 месяцев.