Как построить генеративные модели уровня Sora в условиях стартапа

Y Combinator 85,1 тыс. 34 мин 3 мин 28.03.2024
Главное

Как построить генеративные модели уровня Sora: уроки Y Combinator 0:41

В мире искусственного интеллекта доминирует мнение, что для создания передовых базовых моделей (foundation models) необходимы миллиарды долларов и огромные дата-центры. Однако кейсы стартапов из текущего батча Y Combinator (W24) доказывают обратное: небольшие команды энтузиастов способны совершать прорывы, обладая ограниченными ресурсами, но глубокими знаниями и нестандартным подходом к данным. В этом выпуске подкаста «The Light Cone» участники обсуждают, как именно молодые стартапы «взламывают» индустрию ИИ, конкурируя с гигантами вроде OpenAI.

🎥 Феномен Sora и природа видеогенерации 0:53

Видеогенерация — это следующий рубеж после GPT-4 и Midjourney. Модели уровня Sora демонстрируют невероятные успехи в имитации физики реального мира, хотя до идеала ещё далеко.

Тем не менее, в видео всё ещё встречаются артефакты: ошибки в геометрии, некорректное движение объектов или «плавающие» части изображения.

🛠 Как стартапы «хакают» создание моделей 9:35

Для создания фундаментальной модели необходимы три компонента: данные, вычислительные мощности и экспертиза. Успешные стартапы Y Combinator находят способы оптимизировать каждый из них.

Оптимизация данных и вычислений

Использование инфраструктуры

Благодаря партнерству Y Combinator с Microsoft Azure, компании батча получают быстрый доступ к GPU-кластерам, что позволяет им итерировать свои идеи в 100 раз быстрее, чем это возможно вне программы.

🧬 ИИ за пределами развлечений: от биологии до мозга 24:19

Генеративные модели — это универсальные аппроксиматоры функций. Это значит, что они могут имитировать любые процессы, подчиняющиеся законам физики или математики.

🚀 Советы будущим фаундерам 18:28

Главный посыл дискуссии: экспертиза не так недоступна, как кажется. Многие основатели успешных ИИ-стартапов не имели профильного PhD, а просто потратили несколько месяцев на глубокое изучение актуальных научных публикаций.

По мнению спикеров, сейчас — лучшее время для погружения в ИИ, так как поле еще настолько ново, что любой усердный исследователь может выйти на передний край науки за 6–9 месяцев.

💬 Цитаты

«Если вы ищете причину, почему вы не сможете преуспеть, — угадайте что, вы правы.»

Иван Ситник 32:14

«Поле настолько новое, что если вы потратите 6-9 месяцев, читая все статьи, вы сможете выйти на передний край.»

Иван Ситник 32:38
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер (Transformer)
Архитектура нейронных сетей, которая совершила революцию в обработке текста и легла в основу современных LLM.
Диффузионная модель (Diffusion model)
Тип ИИ, который обучается генерировать данные (обычно изображения), постепенно убирая из них шум.
Foundation model
Масштабная модель искусственного интеллекта, обученная на огромных массивах данных, которая может быть адаптирована под широкий спектр задач.
Синтетические данные
Данные, которые были искусственно созданы с помощью ИИ, а не собраны из реального мира.
📊 Цифры
🗓 Хронология
  1. 2018 Выход статьи о модели World model, которая разделила восприятие и память.
  2. 2020 Публикация статьи Google 'Image is worth 16x16', применившей трансформеры к изображениям.
  3. 2024 Текущий батч стартапов Winter 24 в Y Combinator.
⚖️ Другая сторона
Искусственный интеллект Sora OpenAI Y Combinator Foundation models Generative AI