В рамках специализации по проектированию систем машинного обучения (MLOps) от DeepLearning.AI, Эндрю Ын подробно разбирает критически важный этап запуска любого ИИ-продукта — оценку технической осуществимости (feasibility). Прежде чем инвестировать ресурсы в разработку, необходимо провести тщательный аудит и понять, реально ли вообще построить систему, которая будет работать с требуемой точностью.
🧭 Внешние бенчмарки и матрица оценки 0:02
Один из самых быстрых способов оценить шансы на успех — использование внешних ориентиров. Эндрю Ын рекомендует обращаться к научной литературе, техническим публикациям или опыту других компаний . Если конкуренты или исследовательские группы уже успешно создали аналогичную систему поиска, рекомендаций или управления запасами, это служит весомым доказательством того, что проект технически реализуем .
Для более детального внутреннего анализа Эндрю Ын предлагает использовать матрицу 2x2, которая разделяет задачи по двум осям :
- Тип данных: неструктурированные (речь, изображения) против структурированных (транзакции, логи).
- Тип проекта: новый (создание возможности с нуля) против существующего (улучшение уже работающей системы).
В этой системе координат выбор метода оценки зависит от того, в какой квадрант попадает проект. Например, для новых задач с неструктурированными данными основным инструментом становится анализ человеческих возможностей .
👁️ Неструктурированные данные и человеческий фактор (HLP) 2:11
Для работы с изображениями или аудио Эндрю Ын считает «человеческий уровень производительности» (Human Level Performance, HLP) «золотым стандартом» оценки осуществимости . Логика проста: если человек способен справиться с задачей на основе предоставленных данных, то велика вероятность, что и алгоритм машинного обучения сможет этому научиться .
Однако при оценке HLP критически важно соблюдать чистоту эксперимента. Эксперт приводит в пример систему классификации сигналов светофора для беспилотных автомобилей :
- Ошибка методологии: инженер может решить, что задача проста, потому что он сам легко видит свет светофора, находясь в машине.
- Реальность данных: человеческий глаз обладает гораздо более высоким динамическим диапазоном и контрастностью, чем большинство цифровых камер .
- Правильный тест: человеку нужно показать ровно ту картинку (часто размытую или пересвеченную), которую получит алгоритм. Если человек не может определить цвет светофора по этому конкретному снимку, то и нейросеть, скорее всего, не справится .
Эндрю Ын отмечает, что часто команды месяцами бьются над улучшением алгоритма, не осознавая, что проблема в качестве входных данных. По его словам, гораздо эффективнее на раннем этапе инвестировать в лучшие камеры или освещение, чем пытаться выжать результат из невозможных данных .
📊 Структурированные данные: поиск предиктивных признаков 8:00
Когда речь идет о табличных данных (транзакциях, медицинских записях), концепция HLP работает хуже, так как люди не очень хороши в поиске закономерностей в огромных массивах цифр. Здесь ключевым вопросом становится наличие предиктивных (прогностических) признаков .
Эндрю Ын приводит несколько примеров того, где признаки работают, а где проект может оказаться «пустышкой»:
- Ритейл: использование истории покупок для прогнозирования будущих трат выглядит обоснованным, так как поведение потребителей обычно инерционно .
- Посещаемость ТЦ: данные о погоде являются отличным предиктором трафика в торговых центрах — в дождь люди реже выходят из дома .
- Медицина (DNA): Эндрю Ын выражает сомнение относительно предсказания болезней сердца только по ДНК. Он отмечает, что связь между генотипом и фенотипом очень «шумная», и генетика может быть лишь слабо предсказательным фактором .
- Мода: попытки предсказать тренды одежды на 6 месяцев вперед на основе текущей болтовни в соцсетях часто проваливаются. По мнению спикера, данные соцсетей часто недостаточно предсказательны для таких длительных горизонтов планирования .
Отдельное внимание Ын уделяет прогнозированию цен на акции. Он утверждает, что предсказать будущую стоимость ценной бумаги, основываясь исключительно на истории её цены, практически невозможно . Без «умного» набора дополнительных признаков такие проекты, по мнению эксперта, технически не осуществимы .
📈 История проекта как индикатор будущего 11:38
Для уже существующих проектов лучшим предсказателем будущего успеха является скорость прогресса в прошлом . Эндрю Ын предлагает простую математическую модель для оценки того, сколько времени займет достижение цели.
В качестве примера рассматривается система распознавания речи:
- Устанавливается уровень HLP (или «ошибка Байеса») как предел, к которому мы стремимся .
- Допустим, в первом квартале уровень ошибки составлял 10%.
- Если каждый квартал разрыв между текущей точностью и HLP сокращается на фиксированный процент (например, на 30%), мы получаем экспоненциальную кривую затухания ошибки .
- Экстраполируя эту кривую, можно реалистично оценить, сколько кварталов потребуется для достижения целевых показателей .
Если же прогресс в последних кварталах застопорился, это серьезный повод пересмотреть осуществимость дальнейшего улучшения системы в рамках текущего подхода .