На мероприятии YC Gaming Tech Talks сооснователь и CEO стартапа Спеллбраш (Spellbrush) Кори представил технологический стек компании, который позволяет автоматизировать создание игровых персонажей с помощью глубокого обучения. Основной фокус проекта направлен на решение проблемы масштабирования художественного контента в игровой индустрии, где затраты на графику могут составлять большую часть производственного бюджета.
🎨 Экономика игрового арта и вызовы масштабирования 0:02
Искусство — это сложный и ресурсозатратный процесс, особенно для небольших команд. По словам Кори, в современных AAA-проектах и крупных студийных пайплайнах бюджет на создание визуальных ативов часто достигает 50–70% от общих затрат на производство . Для Спеллбраш, где один из сооснователей является профессиональным художником, ключевым вопросом стал поиск способа масштабирования производства контента без необходимости раздувать штат до размеров гигантской студии .
Команда Спеллбраш пришла к идее внедрения ИИ в пайплайн подготовки ассетов. Чтобы продемонстрировать возможности технологии, Кори предложил сравнить три иллюстрации персонажей в стиле аниме. В то время как на создание двух работ у профессиональных иллюстраторов ушло от 2 до 15 часов, третья была полностью сгенерирована ИИ менее чем за две секунды .
Преимущества использования нейросетей в дизайне:
- Скорость: Генерация одного персонажа занимает менее 2 секунд .
- Масштабируемость: Система способна создавать сотни уникальных персонажей за то же время, которое требуется человеку на один набросок .
- Доступность: Стартап запустил проект Waifu Labs, где пользователи могут кастомизировать персонажей в интерактивном режиме .
🧠 Технологический стек: GAN и управление «латентным шумом» 2:40
В основе инструментов Спеллбраш лежат генеративно-состязательные сети (GAN). Кори объяснил механику их работы через взаимодействие двух нейросетей :
- Генератор: Учится создавать изображения, стремясь сделать их неотличимыми от реальных работ.
- Дискриминатор: Учится отличать настоящий арт от подделок, созданных генератором.
Процесс обучения строится на миллионах итераций, в ходе которых обе сети обновляют свои веса с помощью метода обратного распространения ошибки (backpropagation) . Для создания разнообразия в систему вводится «шум», называемый латентным пространством .
По мнению CEO Спеллбраш, управление этим шумом дает разработчикам уникальные возможности:
- Создание одного и того же персонажа с разными выражениями лица .
- Мгновенная смена цветовой палитры .
- Перенос стиля или полная трансформация манеры иллюстрации для уже готового героя .
📊 Проблема смещения данных и репрезентация 5:35
Для обучения нейросетей Спеллбраш использовал датасет из 10 миллионов изображений, собранных в открытом доступе . Основной упор был сделан на эстетику аниме из-за огромного объема доступных данных. Однако команда столкнулась с серьезным дисбалансом в обучающей выборке.
Распределение данных в интернете сильно искажено:
- Гендерный дисбаланс: Женские персонажи встречаются в 6 раз чаще, чем мужские . Кори связывает это с тем, что художники (особенно в Японии) предпочитают рисовать девушек ради большего количества лайков и ретвитов .
- Этнический дисбаланс: Персонажи с темными тонами кожи составляют менее 3% от общего объема иллюстраций .
Команда Спеллбраш сознательно корректировала эти веса, чтобы ИИ мог генерировать качественных мужских персонажей и героев с разным цветом кожи чаще, чем это встречается в «сырых» данных из сети . Кроме того, компания ведет активные исследования в области автоматической анимации (инструменты для Live2D и Spine) и технологий сверхвысокого разрешения (super-resolution) для видео .
🖥️ Сделай сам: почему DIY-суперкомпьютер выгоднее AWS 7:32
Одной из самых практических частей доклада стал разбор затрат на инфраструктуру. Кори утверждает, что использование облачных сервисов для обучения тяжелых моделей экономически неэффективно для стартапа.
Сравнение затрат:
- AWS (экземпляр P3.16xlarge): Стоит около $24 в час (или $10 для spot-инстансов) . Обучение одной модели занимает 7–10 дней, что обходится в $3000–$4000 .
- Собственный кластер (DIY): Спеллбраш собрали стойку 42U прямо в офисе. С учетом всех затрат, эксплуатация обходится всего в $0,60 в час .
Технические характеристики офисного суперкомпьютера Спеллбраш:
- Сеть 100 Гбит/с (Top of Rack router).
- Более 200 вычислительных ядер.
- 20+ графических процессоров (включая 8 карт NVIDIA Titan RTX в одной из нод) .
- 40 ТБ флэш-памяти для хранения данных.
Программная архитектура включает кастомный язык NetGen для быстрого описания архитектур GAN, который компилируется в низкоуровневые операции TensorFlow . Все задачи упаковываются в контейнеры Singularity и распределяются планировщиком Slurm.
🚀 Будущее: первая игра, полностью иллюстрированная ИИ 9:20
На момент выступления команда Спеллбраш состояла всего из пяти человек, но они уже работают над созданием «первой в мире игры, иллюстрированной ИИ» . Стартап активно нанимает специалистов, включая 2D-аниматоров, моушн-дизайнеров и VFX-художников для работы в реальном времени.
Кори резюмировал, что их цель — не заменить художников, а предоставить им инструменты, которые позволяют выполнять задачи, занимавшие раньше часы, за считанные секунды .