# Эндрю Ын: «ИИ сегодня — это эра хороших данных, а не только больших»

Источник: https://www.youtube.com/watch?v=VXI872YeVLo
Канал: Eye on AI
Опубликовано: 13.04.2022

---

Эндрю Ын (Andrew Ng) — одна из наиболее влиятельных фигур в современном мире искусственного интеллекта. Будучи основателем Google Brain, сооснователем Coursera и бывшим вице-президентом Baidu, он стоял у истоков бума глубокого обучения. В беседе с Крейгом Смитом в подкасте *Eye on AI* Эндрю Ын объясняет, почему индустрии пора сместить фокус с разработки всё более сложных архитектур нейросетей на качество данных, и как этот подход поможет внедрить ИИ в традиционные сектора экономики.

## 📈 Переход к «центричности на данных» (Data-Centric AI)
[[JUMP:04:27]]

На протяжении последнего десятилетия прогресс в области ИИ определялся «моделе-центричным» подходом: исследователи брали фиксированные наборы данных и пытались улучшить алгоритмы или архитектуры нейросетей. По мнению Эндрю Ына, для большинства прикладных задач этот путь зашёл в тупик [04:41]. В то время как потребительский интернет (поиск, реклама) оперирует миллиардами пользователей, традиционные индустрии — здравоохранение, логистика и производство — сталкиваются с дефицитом качественной информации [05:22].

Суть концепции Data-Centric AI заключается в систематической работе над качеством данных при сохранении стабильной архитектуры модели. Эндрю Ын выделяет две ключевые проблемы внедрения ИИ вне IT-сектора:

*   **Малые объемы данных:** В производстве часто приходится работать не с миллионами, а всего с 50 изображениями дефектов [05:37].
*   **Гетерогенность задач:** Каждая больница кодирует медицинские записи по-своему, а каждый завод производит уникальную продукцию. Невозможно создать одну «монолитную» систему для всех заводов или больниц мира [06:40].

Эндрю Ын утверждает, что выход из этой ситуации — создание инструментов, которые позволят экспертам в предметной области (инспекторам на заводах, врачам), а не только инженерам по машинному обучению, самостоятельно готовить данные для ИИ [07:18].

## 🛠 Landing AI: как заставить нейросеть учиться на 50 примерах
[[JUMP:08:37]]

Новый стартап Эндрю Ына, Landing AI, разрабатывает платформу Landing Lens, которая реализует принципы data-centric подхода для компьютерного зрения в промышленности. Собеседники обсудили технический парадокс: принято считать, что для глубокого обучения нужны гигантские датасеты, но Эндрю Ын настаивает, что 50 примеров может быть достаточно, если они «чистые» [11:02].

Основная сложность в малых выборках — противоречивость меток. По словам гостя, на заводах часто два инспектора не могут договориться, что считать дефектом, а что нет [09:17]. В результате ИИ получает несогласованные данные и не может обучиться. Платформа Landing Lens фокусируется на:

1.  Выявлении несоответствий в маркировке данных экспертами [09:44].
2.  Обнаружении дефектов самих данных (размытые изображения, плохое освещение).
3.  Итеративном улучшении датасета силами профильных специалистов, а не дата-сайентистов [10:09].

Эндрю Ын подчеркивает, что нейросеть способна понять разницу между царапиной и сколом даже на микро-выборке, если эти несколько примеров идеально и однозначно размечены [11:28].

## 🤖 Будущее обучения: Supervised vs Under-supervised
[[JUMP:12:46]]

Ведущий Крейг Смит поднял вопрос о долгосрочных трендах, сославшись на мнение Яна Лекуна о том, что будущее ИИ — за самообучением (self-supervised/unsupervised learning), где метки не нужны вовсе [08:11]. Эндрю Ын соглашается, что в долгосрочной перспективе (десятилетия или века) этот путь ведет к сильному ИИ (AGI), но делает важную оговорку для бизнеса.

По мнению Ына, в ближайшие несколько лет основную экономическую ценность будет продолжать приносить обучение с учителем (supervised learning) [08:51]. Он вспоминает, что начинал Google Brain с фокуса на unsupervised learning, вдохновленный идеями Джеффа Хинтона о том, что люди учатся без надзора родителей за каждым шагом [21:33]. Однако масштабирование нейросетей в Google показало колоссальную практическую эффективность именно обучения на размеченных данных, что на время «отвлекло» исследовательское сообщество [22:12].

## 🧩 Проблема объяснимости и доверия в ИИ
[[JUMP:16:32]]

Крейг Смит привел позицию Тома Сибела (C3.ai), утверждающего, что промышленность скептично относится к сложному глубокому обучению из-за его непрозрачности («черный ящик») [16:47]. Эндрю Ын, напротив, не видит массового сопротивления deep learning в компьютерном зрении, но признает критическую важность «объяснимости» в медицине и финансах.

В качестве примера он привел систему оценки риска смертности пациентов в Стэнфордской больнице [18:24]. Интересное наблюдение Эндрю Ына: врачам нужна была объяснимость не для каждой конкретной рекомендации, а как инструмент формирования первичного доверия к системе [19:04]. Как только врачи убедились, что алгоритм опирается на разумные медицинские показатели, они перестали заглядывать в «объяснения» и начали использовать ИИ просто как инструмент приоритизации [19:31].

## 🚀 Путь к AGI и большие языковые модели (LLM)
[[JUMP:27:31]]

Обсуждая хайп вокруг мультимодальных моделей и LLM (таких как GPT или Wudao 2.0), Эндрю Ын высказал осторожную позицию. Он не считает, что от современных языковых моделей есть прямая дорога к человеческому интеллекту (AGI) [28:49].

Эндрю использовал аналогию с небоскребами: «Строительство небоскребов впечатляет, и вершина здания приближает вас к Луне, но одного умения строить высокие конструкции недостаточно, чтобы реально на нее высадиться» [29:02]. Он отмечает, что LLM потребляют в тысячи раз больше текста, чем любой человек за всю жизнь, но при этом остаются менее гибкими и способными, чем типичный человек [29:16]. Путь к AGI, по его мнению, потребует открытий в технологиях, которых сегодня просто не существует [29:43].

## 🌏 Глобальная конкуренция и роль фундаментальной науки
[[JUMP:31:30]]

В завершение беседы Эндрю Ын затронул тему лидерства в исследованиях. Несмотря на успехи Китая, США и Европы, он выразил обеспокоенность судьбой молодых ученых. Он признался, что без грантов от NSF и DARPA он никогда не смог бы запустить Google Brain [32:21]. Сегодняшняя сложность получения государственного финансирования и бюрократия при написании заявок могут затормозить следующее поколение инноваторов, которые должны создать «то самое» будущее ИИ.