# Как построить генеративные модели уровня Sora в условиях стартапа

Источник: https://www.youtube.com/watch?v=fmI_OciHV_8
Канал: Y Combinator
Опубликовано: 28.03.2024

---

## Как построить генеративные модели уровня Sora: уроки Y Combinator
[[JUMP:0:41]]

В мире искусственного интеллекта доминирует мнение, что для создания передовых базовых моделей (foundation models) необходимы миллиарды долларов и огромные дата-центры. Однако кейсы стартапов из текущего батча Y Combinator (W24) доказывают обратное: небольшие команды энтузиастов способны совершать прорывы, обладая ограниченными ресурсами, но глубокими знаниями и нестандартным подходом к данным. В этом выпуске подкаста «The Light Cone» участники обсуждают, как именно молодые стартапы «взламывают» индустрию ИИ, конкурируя с гигантами вроде OpenAI.

## 🎥 Феномен Sora и природа видеогенерации
[[JUMP:0:53]]

Видеогенерация — это следующий рубеж после GPT-4 и Midjourney. Модели уровня Sora демонстрируют невероятные успехи в имитации физики реального мира, хотя до идеала ещё далеко.

*   **Технологический скачок:** Sora объединяет возможности трансформеров (архитектура для текста) и диффузионных моделей (генерация изображений).
*   **SpaceTime patches:** Ключевое решение OpenAI — обучение на видео с использованием так называемых «пространственно-временных патчей». Это позволяет модели понимать консистентность объектов во времени, что раньше было камнем преткновения.
*   **Сложность:** По оценкам участников, обучение таких моделей требует колоссальных ресурсов — возможно, на порядок больше, чем для GPT-4, что подразумевает использование десятков тысяч GPU.

Тем не менее, в видео всё ещё встречаются артефакты: ошибки в геометрии, некорректное движение объектов или «плавающие» части изображения.

## 🛠 Как стартапы «хакают» создание моделей
[[JUMP:9:35]]

Для создания фундаментальной модели необходимы три компонента: данные, вычислительные мощности и экспертиза. Успешные стартапы Y Combinator находят способы оптимизировать каждый из них.

### Оптимизация данных и вычислений

*   **Качество важнее объема:** Команда Metalware, создающая ИИ-копилот для инженеров-конструкторов, обучала модель на сканированных учебниках, а не на гигантских массивах «сырых» данных.
*   **Малые модели:** Вместо неподъемных архитектур вроде GPT-4, они использовали модель GPT-2.5 (около 1 млрд параметров), что позволило эффективно решать узкоспециализированные задачи.
*   **Синтетические данные:** Вопреки первоначальному скепсису (считалось, что модель не может учиться на «собственной крови»), синтетические данные стали мощным драйвером качества, особенно в задачах программирования.

### Использование инфраструктуры
Благодаря партнерству Y Combinator с Microsoft Azure, компании батча получают быстрый доступ к GPU-кластерам, что позволяет им итерировать свои идеи в 100 раз быстрее, чем это возможно вне программы.

## 🧬 ИИ за пределами развлечений: от биологии до мозга
[[JUMP:24:19]]

Генеративные модели — это универсальные аппроксиматоры функций. Это значит, что они могут имитировать любые процессы, подчиняющиеся законам физики или математики.

*   **Proteins:** Стартап TheUseBio применяет генеративный ИИ для проектирования новых молекул и лекарственных препаратов.
*   **Neurotech:** Компания A-Pyramidal работает над моделью для человеческого мозга, предсказывающей EEG-сигналы. Это открывает перспективы для ранней диагностики инсультов и даже интерфейсов «мозг-компьютер».
*   **Weather:** Стартап Atmo создал модель прогнозирования погоды, которая работает эффективнее государственных систем, стоивших более миллиарда долларов, благодаря переходу от физических формул к машинному обучению.

## 🚀 Советы будущим фаундерам
[[JUMP:18:28]]

Главный посыл дискуссии: экспертиза не так недоступна, как кажется. Многие основатели успешных ИИ-стартапов не имели профильного PhD, а просто потратили несколько месяцев на глубокое изучение актуальных научных публикаций.

*   **Не бойтесь пивотов:** Стивен Доши, основатель Playground, полностью перепрофилировал свой стартап (ранее это был Mixpanel) на ИИ, просто обучившись по статьям, и сегодня его модель конкурирует с Midjourney.
*   **Выбирайте нишу:** Вместо того чтобы пытаться превзойти OpenAI в создании «общего ИИ», стартапам выгоднее специализироваться на ценных вертикалях, где текущие модели еще не адаптированы.

По мнению спикеров, сейчас — лучшее время для погружения в ИИ, так как поле еще настолько ново, что любой усердный исследователь может выйти на передний край науки за 6–9 месяцев.