Эндрю Ын: «Скорость выполнения — главный предиктор успеха стартапа»

В лекции Стэнфордского университета в рамках курса CS230 подробно рассматривается полный жизненный цикл проекта глубокого обучения на примере системы распознавания лиц. Известный специалист в области искусственного интеллекта Эндрю Ын объясняет, почему разработка ИИ-систем кардинально отличается от традиционного программирования, и делится практическими инсайтами по сбору данных, оптимизации деплоя и долгосрочной поддержке моделей в меняющемся мире. Спикер призывает к переходу от моделецентричного подхода к дата-центричному, подчеркивая критическую важность скорости итераций.

💻 Отличие ИИ-проектов от традиционной разработки ПО 0:05

В традиционном программном обеспечении инженеры пишут код, компилируют его и полностью контролируют его исполнение. Создание систем искусственного интеллекта кардинально отличается, поскольку ИИ-проект включает в себя как код, так и данные, на которых обучается алгоритм. Разработчик почти никогда не знает заранее, какие «странные и чудесные» вещи скрываются в его датасете. В примере с системой распознавания лиц на начальном этапе невозможно предугадать, как алгоритм справится с плохим освещением, необычной мимикой, очень длинными или короткими волосами, а также с наличием у людей очков. Данные настолько богаты нюансами, что предсказать поведение системы ИИ заранее невозможно.

По этой причине машинное обучение представляет собой глубоко итеративный, эмпирический процесс. Инженеру необходимо построить базовую систему, протестировать ее, обнаружить особенности распределения данных и на основе этого скорректировать код или саму выборку.

Подобная эмпирическая природа свойственна и современным крупным языковым моделям (LLM). По мнению Эндрю Ына, существующие в обществе страхи о полной неконтролируемости LLM во многом преувеличены, однако доля истины в них есть. Причина непредсказуемости языковых моделей кроется в том, что они обучаются на колоссальных массивах данных — десятках триллионов токенов, которые ни один человек не способен прочесть и проанализировать физически. Разработка приложений на базе LLM и агентных воркфлоу (agentic AI workflows) строится на экспериментах: система собирается, тестируется в безопасной среде (песочнице), после чего разработчики точечно устраняют выявленные баги и некорректные ответы, не выпуская сырой продукт к реальным пользователям.

Главная сложность заключается в том, что создатели ИИ не могут контролировать данные из прошлого, хранящиеся на жестких дисках, и тем более не способны контролировать данные, которые мир подкинет их системе в будущем (например, появление людей в тяжелых зимних шарфах, закрывающих лицо).

🔄 Жизненный цикл ИИ-проекта и философия скорости 4:32

В академической среде существует сильный перекос в сторону моделирования: исследователи обучают модели, оценивают их, публикуют статьи и соревнуются на бенчмарках. Однако в реальном бизнесе создание эффективной системы глубокого обучения требует гораздо большего объема работы за пределами построения самой модели.

Полный жизненный цикл коммерческого ИИ-проекта состоит из следующих этапов:

Спецификация проблемы и определение бизнес-целей.
Сбор и подготовка данных.
Проектирование архитектуры модели.
Обучение модели.
Анализ результатов и итеративное улучшение модели/данных.
Деплой (развертывание) в продакшн.
Мониторинг, поддержка и регулярное обновление системы.

В качестве сквозного примера Эндрю Ын приводит реальный коммерческий кейс из своей практики — интеллектуальную систему безопасности для авторизации сотрудников в офисных комплексах. Система работает в связке со стандартными пропусками (key cards): в момент прикладывания карты камера делает быстрый снимок сотрудника, чтобы подтвердить, что картой пользуется именно ее законный владелец, после чего временный снимок удаляется для соблюдения конфиденциальности.

Для реализации такой логики применяется специализированная архитектура нейросетей — сиамская сеть (Siamese network). Вместо того чтобы переобучать модель под каждого нового сотрудника, сиамская сеть принимает на вход два изображения и определяет, принадлежит ли лицо на камере тому же человеку, чья эталонная регистрационная фотография привязана к пропуску.

Рассуждая о сборе данных для стартапа из трех человек в Пало-Альто, которому юристы запретили скачивать готовые датасеты из интернета, Эндрю Ын формулирует ключевой принцип: скорость исполнения (velocity) является главным предиктором успеха проекта. При выборе тактики сбора данных необходимо ориентироваться на методы, позволяющие получить первый рабочий датасет за 1–2 дня, даже если он будет уступать по объему или качеству.

Ценность данных крайне тяжело оценить априори. Спикер делится историей о генеральном директоре, который потратил более 100 миллионов долларов на покупку компании исключительно ради ее базы данных, а затем просил помочь придумать, как эти данные монетизировать. Чтобы избежать подобных дорогостоящих ошибок, Эндрю Ын практиковал со своими командами экстремально быстрый сбор данных: например, они отправлялись в места с высоким пешеходным трафиком (студенческие столовые Стэнфорда) и с информированного согласия студентов за 48 часов собирали образцы голосов или фотографий. Если модель обучается за пару часов или за ночь, тратить два месяца на идеальную подготовку первичных данных не имеет коммерческого смысла.

📊 Дата-центричный ИИ и анализ ошибок 26:09

Когда первичная модель обучена и показывает неудовлетворительный результат, на помощь приходит концепция дата-центричного ИИ (Data-centric AI) — дисциплина системного улучшения данных для повышения точности системы. Вместо слепого изменения гиперпараметров нейросети инженеры проводят ручной анализ ошибок (error analysis).

Если в ходе анализа выясняется, что алгоритм распознавания лиц систематически ошибается на людях в фирменных стэнфордских кепках, это становится четким сигналом: команде нужно сфокусироваться на сборе фотографий людей в головных уборах.

По мнению Эндрю Ына, вера в то, что «чем больше данных, тем лучше» — это опасное упрощение. Бессистемное пополнение датасета всем подряд дорого и неэффективно. Даже создатели передовых фронтирных моделей (frontier models) сегодня не собирают интернет-мусор willy-nilly, а точечно инвестируют в высокоценные субкатегории. Например, для обучения Claude, OpenAI или Gemini 2.5 Pro критически важны чистые, отредактированные книги, статьи и специализированные датасеты с качественным кодом.

Современное машинное обучение также отошло от жесткого догмата прошлого, гласившего, что обучающая выборка должна строго соответствовать тестовому распределению. Крупные нейросети обладают избыточной емкостью (capacity). Они способны эффективно впитывать даже слегка релевантные данные (например, синтетические мультяшные аватары для улучшения распознавания реальных людей), не ухудшая показатели на целевой задаче.

Спикер сравнивает это с человеческим мозгом: тот факт, что человек учится играть на пианино, не делает его хуже в области ИИ, так как емкости мозга достаточно для обоих навыков. Это опровергает «теорию чердака» Шерлока Холмса о строго ограниченной памяти человека.

🚪 Оптимизация деплоя: Детекция визуальной активности (VAD) 36:39

После завершения обучения начинается стадия деплоя, требующая серьезной программной инженерии для организации инференса (inference) в облаке или на локальном сервере. В реальных условиях стримить видеопоток с разрешением 30 кадров в секунду в режиме 24/7 от тысяч дверей в облако экономически нецелесообразно и технически невозможно.

Для оптимизации расходов на вычислительные мощности перед тяжелой сиамской нейросетью ставится легковесный алгоритм детекции визуальной активности (Visual Activity Detection, VAD), работающий непосредственно на конечном устройстве (at the edge).

Эндрю Ын предлагает два варианта реализации VAD для CTO стартапа:

Эвристический метод без машинного обучения: Код отслеживает изменение RGB-значений пикселей на статичной камере. Если доля изменившихся пикселей превышает заданный порог $\epsilon$ (например, изменилось более 10% картинки по сравнению с предыдущей секундой), система фиксирует движение. Реализуется с помощью простых библиотек вроде PIL (Python Imaging Library).
Миниатюрная нейросеть: Обучение крайне легкой, низкопотребляющей модели, которая решает бинарную задачу — определяет, есть ли вообще человек (или лицо) в кадре, не пытаясь установить его личность.

С точки зрения философии скорости, спикер рекомендует начинать с первого варианта. Пять строчек кода на Python пишутся за 20 минут. На нем стартап споткнется обо все практические проблемы: колыхание деревьев на ветру, проезжающие вдали машины или соседские коты будут вызывать ложные срабатывания.

Однако именно этот «быстрый и грязный» запуск подсветит неочевидные инженерные инсайты. Например, разработчики обнаружат, что люди при движении к камере часто смазываются. Если обучить маленькую нейросеть (Вариант 2) не просто детектировать лицо, а выбирать из буфера 5 наиболее четких, сфокусированных кадров высокого разрешения для отправки в облако, точность финального распознавания лиц вырастет драматически.

При оценке качества работы ИИ-инженеры традиционно ориентируются на уровень человеческого восприятия (Human-level performance) в качестве целевого бенчмарка. В контролируемых условиях современные ИИ-системы уже распознают лица значительно лучше большинства людей. В задачах же вроде рекомендаций книг или фильмов baseline установить сложнее, поскольку сами люди рекомендуют контент друзьям довольно плохо, и ИИ здесь изначально эффективнее.

🌪️ Мониторинг и борьба со сдвигом данных 54:41

Сдача модели по результатам тестирования на фиксированном тестовом датасете — это опасная ловушка. Инженеры, заявляющие: «На тест-сете все работает идеально, остальное — не моя проблема», демонстрируют неконструктивный подход. Продукт должен работать в реальном мире, а мир имеет свойство непрерывно меняться, вызывая два типа деградации ИИ-систем:

Сдвиг данных (Data drift): Изменение распределения входных данных ($x$). Например, зимой люди надевают объемные капюшоны, шарфы и дождевики, а летом массово носят солнцезащитные очки, к чему модель, обученная весной, оказывается не готова.
Сдвиг понятий (Concept drift): Изменение связи между входом и выходом ($x \to y$), когда меняется сам контекст отображения данных в реальном мире.

Примеры сдвига данных окружают нас повсюду. В поисковых движках выход нового альбома Тейлор Свифт или победа нового политика мгновенно ломают старые паттерны поисковых запросов. На заводах при замене детали в станке на конвейере начинает появляться новый, ранее невиданный тип царапин на корпусах смартфонов.

Эндрю Ын делится опытом разработки беспилотных автомобилей: модели, идеально обученные на дорогах Калифорнии, начали сбоить в Техасе. Выяснилось, что из-за сильных техасских ветров светофоры там закреплены горизонтально и подвешены на тросах совершенно иначе, чем в Калифорнии. Модели пришлось переобучать под новое распределение.

Примечательно, что простые эвристические алгоритмы (как Вариант 1 для VAD с порогом $\epsilon$) гораздо более устойчивы к сдвигу данных, так как у них всего один параметр. Сложная нейросеть с тысячами параметров легко переобучается (overfit) под людей без очков и полностью ломается в солнечный день.

Для предотвращения деградации ИИ-систем необходимо с согласия пользователей выстраивать сквозную аналитику. Лучшая практика — собраться мультидисциплинарной командой и устроить брейншторм потенциальных проблем. Спикер утверждает, что в его практике не было ни одного факапа ИИ в продакшене, который бы команда предварительно не зафиксировала в ходе такого брейншторма.

На основе списка рисков создаются богатые дашборды (от 20 до 100 метрик в Jupyter Notebook), отслеживающие во времени такие показатели, как:

Задержка системы (Latency).
Доля одобренных и отклоненных заявок (Accept/Reject ratio).
Частота повторной аутентификации (Re-authentication rate) — если пользователь вынужден прикладывать карту дважды, это верный признак его раздражения и сбоя системы.

Со временем неинформативные, стабильные графики удаляются (прунятся). Для оставшихся ключевых метрик выставляются верхние и нижние границы алармов (alarms). Как только график пробивает критический порог, система автоматически отправляет уведомление дежурному инженеру, чтобы тот оперативно собрал свежие данные и обновил модель.