Эндрю Ын о технической осуществимости ML-проектов: как понять, что идею можно реализовать

В рамках специализации по проектированию систем машинного обучения (MLOps) от DeepLearning.AI, Эндрю Ын подробно разбирает критически важный этап запуска любого ИИ-продукта — оценку технической осуществимости (feasibility). Прежде чем инвестировать ресурсы в разработку, необходимо провести тщательный аудит и понять, реально ли вообще построить систему, которая будет работать с требуемой точностью.

🧭 Внешние бенчмарки и матрица оценки 0:02

Один из самых быстрых способов оценить шансы на успех — использование внешних ориентиров. Эндрю Ын рекомендует обращаться к научной литературе, техническим публикациям или опыту других компаний . Если конкуренты или исследовательские группы уже успешно создали аналогичную систему поиска, рекомендаций или управления запасами, это служит весомым доказательством того, что проект технически реализуем .

Для более детального внутреннего анализа Эндрю Ын предлагает использовать матрицу 2x2, которая разделяет задачи по двум осям :

Тип данных: неструктурированные (речь, изображения) против структурированных (транзакции, логи).
Тип проекта: новый (создание возможности с нуля) против существующего (улучшение уже работающей системы).

В этой системе координат выбор метода оценки зависит от того, в какой квадрант попадает проект. Например, для новых задач с неструктурированными данными основным инструментом становится анализ человеческих возможностей .

👁️ Неструктурированные данные и человеческий фактор (HLP) 2:11

Для работы с изображениями или аудио Эндрю Ын считает «человеческий уровень производительности» (Human Level Performance, HLP) «золотым стандартом» оценки осуществимости . Логика проста: если человек способен справиться с задачей на основе предоставленных данных, то велика вероятность, что и алгоритм машинного обучения сможет этому научиться .

Однако при оценке HLP критически важно соблюдать чистоту эксперимента. Эксперт приводит в пример систему классификации сигналов светофора для беспилотных автомобилей :

Ошибка методологии: инженер может решить, что задача проста, потому что он сам легко видит свет светофора, находясь в машине.
Реальность данных: человеческий глаз обладает гораздо более высоким динамическим диапазоном и контрастностью, чем большинство цифровых камер .
Правильный тест: человеку нужно показать ровно ту картинку (часто размытую или пересвеченную), которую получит алгоритм. Если человек не может определить цвет светофора по этому конкретному снимку, то и нейросеть, скорее всего, не справится .

Эндрю Ын отмечает, что часто команды месяцами бьются над улучшением алгоритма, не осознавая, что проблема в качестве входных данных. По его словам, гораздо эффективнее на раннем этапе инвестировать в лучшие камеры или освещение, чем пытаться выжать результат из невозможных данных .

📊 Структурированные данные: поиск предиктивных признаков 8:00

Когда речь идет о табличных данных (транзакциях, медицинских записях), концепция HLP работает хуже, так как люди не очень хороши в поиске закономерностей в огромных массивах цифр. Здесь ключевым вопросом становится наличие предиктивных (прогностических) признаков .

Эндрю Ын приводит несколько примеров того, где признаки работают, а где проект может оказаться «пустышкой»:

Ритейл: использование истории покупок для прогнозирования будущих трат выглядит обоснованным, так как поведение потребителей обычно инерционно .
Посещаемость ТЦ: данные о погоде являются отличным предиктором трафика в торговых центрах — в дождь люди реже выходят из дома .
Медицина (DNA): Эндрю Ын выражает сомнение относительно предсказания болезней сердца только по ДНК. Он отмечает, что связь между генотипом и фенотипом очень «шумная», и генетика может быть лишь слабо предсказательным фактором .
Мода: попытки предсказать тренды одежды на 6 месяцев вперед на основе текущей болтовни в соцсетях часто проваливаются. По мнению спикера, данные соцсетей часто недостаточно предсказательны для таких длительных горизонтов планирования .

Отдельное внимание Ын уделяет прогнозированию цен на акции. Он утверждает, что предсказать будущую стоимость ценной бумаги, основываясь исключительно на истории её цены, практически невозможно . Без «умного» набора дополнительных признаков такие проекты, по мнению эксперта, технически не осуществимы .

📈 История проекта как индикатор будущего 11:38

Для уже существующих проектов лучшим предсказателем будущего успеха является скорость прогресса в прошлом . Эндрю Ын предлагает простую математическую модель для оценки того, сколько времени займет достижение цели.

В качестве примера рассматривается система распознавания речи:

Устанавливается уровень HLP (или «ошибка Байеса») как предел, к которому мы стремимся .
Допустим, в первом квартале уровень ошибки составлял 10%.
Если каждый квартал разрыв между текущей точностью и HLP сокращается на фиксированный процент (например, на 30%), мы получаем экспоненциальную кривую затухания ошибки .
Экстраполируя эту кривую, можно реалистично оценить, сколько кварталов потребуется для достижения целевых показателей .

Если же прогресс в последних кварталах застопорился, это серьезный повод пересмотреть осуществимость дальнейшего улучшения системы в рамках текущего подхода .