Как построить генеративные модели уровня Sora: уроки Y Combinator 0:41
В мире искусственного интеллекта доминирует мнение, что для создания передовых базовых моделей (foundation models) необходимы миллиарды долларов и огромные дата-центры. Однако кейсы стартапов из текущего батча Y Combinator (W24) доказывают обратное: небольшие команды энтузиастов способны совершать прорывы, обладая ограниченными ресурсами, но глубокими знаниями и нестандартным подходом к данным. В этом выпуске подкаста «The Light Cone» участники обсуждают, как именно молодые стартапы «взламывают» индустрию ИИ, конкурируя с гигантами вроде OpenAI.
🎥 Феномен Sora и природа видеогенерации 0:53
Видеогенерация — это следующий рубеж после GPT-4 и Midjourney. Модели уровня Sora демонстрируют невероятные успехи в имитации физики реального мира, хотя до идеала ещё далеко.
- Технологический скачок: Sora объединяет возможности трансформеров (архитектура для текста) и диффузионных моделей (генерация изображений).
- SpaceTime patches: Ключевое решение OpenAI — обучение на видео с использованием так называемых «пространственно-временных патчей». Это позволяет модели понимать консистентность объектов во времени, что раньше было камнем преткновения.
- Сложность: По оценкам участников, обучение таких моделей требует колоссальных ресурсов — возможно, на порядок больше, чем для GPT-4, что подразумевает использование десятков тысяч GPU.
Тем не менее, в видео всё ещё встречаются артефакты: ошибки в геометрии, некорректное движение объектов или «плавающие» части изображения.
🛠 Как стартапы «хакают» создание моделей 9:35
Для создания фундаментальной модели необходимы три компонента: данные, вычислительные мощности и экспертиза. Успешные стартапы Y Combinator находят способы оптимизировать каждый из них.
Оптимизация данных и вычислений
- Качество важнее объема: Команда Metalware, создающая ИИ-копилот для инженеров-конструкторов, обучала модель на сканированных учебниках, а не на гигантских массивах «сырых» данных.
- Малые модели: Вместо неподъемных архитектур вроде GPT-4, они использовали модель GPT-2.5 (около 1 млрд параметров), что позволило эффективно решать узкоспециализированные задачи.
- Синтетические данные: Вопреки первоначальному скепсису (считалось, что модель не может учиться на «собственной крови»), синтетические данные стали мощным драйвером качества, особенно в задачах программирования.
Использование инфраструктуры
Благодаря партнерству Y Combinator с Microsoft Azure, компании батча получают быстрый доступ к GPU-кластерам, что позволяет им итерировать свои идеи в 100 раз быстрее, чем это возможно вне программы.
🧬 ИИ за пределами развлечений: от биологии до мозга 24:19
Генеративные модели — это универсальные аппроксиматоры функций. Это значит, что они могут имитировать любые процессы, подчиняющиеся законам физики или математики.
- Proteins: Стартап TheUseBio применяет генеративный ИИ для проектирования новых молекул и лекарственных препаратов.
- Neurotech: Компания A-Pyramidal работает над моделью для человеческого мозга, предсказывающей EEG-сигналы. Это открывает перспективы для ранней диагностики инсультов и даже интерфейсов «мозг-компьютер».
- Weather: Стартап Atmo создал модель прогнозирования погоды, которая работает эффективнее государственных систем, стоивших более миллиарда долларов, благодаря переходу от физических формул к машинному обучению.
🚀 Советы будущим фаундерам 18:28
Главный посыл дискуссии: экспертиза не так недоступна, как кажется. Многие основатели успешных ИИ-стартапов не имели профильного PhD, а просто потратили несколько месяцев на глубокое изучение актуальных научных публикаций.
- Не бойтесь пивотов: Стивен Доши, основатель Playground, полностью перепрофилировал свой стартап (ранее это был Mixpanel) на ИИ, просто обучившись по статьям, и сегодня его модель конкурирует с Midjourney.
- Выбирайте нишу: Вместо того чтобы пытаться превзойти OpenAI в создании «общего ИИ», стартапам выгоднее специализироваться на ценных вертикалях, где текущие модели еще не адаптированы.
По мнению спикеров, сейчас — лучшее время для погружения в ИИ, так как поле еще настолько ново, что любой усердный исследователь может выйти на передний край науки за 6–9 месяцев.