Сооснователь OpenAI Войцех Заремба о будущем робототехники и нейросетей

Y Combinator 19,5 тыс. 54 мин 11 мин 17.05.2017
Главное

Искусственный интеллект стремительно меняет ландшафт современных технологий, превращаясь из теоретической дисциплины в главный драйвер коммерческих стартапов. В этом материале сооснователь OpenAI Войцех Заремба в деталях объясняет фундаментальные концепции ИИ, делится практическими вызовами в сфере робототехники и рассуждает о неизбежности масштабной автоматизации труда. Статья основана на опыте эксперта и адаптирована под прагматичный стиль фаундеров, стремящихся найти точки роста в технологической индустрии.

🚀 От академических исследований к созданию OpenAI 0:00

Войцех Заремба (Wojciech Zaremba) прошел классический путь топ-исследователя в сфере ИИ, успев поработать в крупнейших технологических лабораториях мира. В течение своей карьеры он провел год в команде Google Brain и еще один год в Facebook AI Research (FAIR). Параллельно с этим ученый успешно защитил докторскую диссертацию (PhD) в Нью-Йоркском университете (NYU). Подобное совмещение работы в коммерческих гигантах и учебы считается редким исключением. Как отмечает сам Войцех Заремба, это стало возможным благодаря исключительной исследовательской культуре обеих организаций, позволявшей ему активно публиковать научные работы непосредственно в процессе обучения.

Сегодня Войцех Заремба сфокусирован на развитии OpenAI — некоммерческой (на момент основания) организации, созданной с целью построения безопасного общего искусственного интеллекта (AGI), который принесет максимальную пользу всему человечеству. Лаборатория объединяет ведущих мировых инженеров и ученых, совместно ищущих «недостающие детали» в мозаике полноценного ИИ. Инициатива получила мощную финансовую и менторскую поддержку со стороны технологических лидеров. Общий объем привлеченных инвестиций в проект на раннем этапе составил 1 миллиард долларов, а ключевыми спонсорами и идеологами выступили Илон Маск и Сэм Альтман.

🤖 Загадка манипуляции: почему роботы до сих пор не умеют брать предметы 1:48

Деятельность OpenAI разделена на проведение фундаментальных исследований и реализацию нескольких масштабных прикладных проектов. Одним из приоритетных направлений работы команды Войцеха Зарембы является робототехника, а именно — проблема манипуляции физическими объектами.

В робототехнике принято выделять три ключевых типа инженерных задач:

На сегодняшний день именно манипуляция остается самой сложной и неразрешенной проблемой. По словам Войцеха Зарембы, современная инженерия способна написать жесткий код под одну конкретную операцию на конвейере. Если завод производит одинаковые стеклянные стаканы, программист может четко прописать координаты: на каком расстоянии должна закрыться механическая клешня. Однако в мире до сих пор не существует алгоритма, который позволил бы роботу успешно взаимодействовать с произвольным, незнакомым ему объектом.

🎮 Игры как полигон для ИИ и ограничения обучения с подкреплением 3:59

Другие крупные проекты OpenAI тесно связаны с игровой индустрией. Разработчики обучают алгоритмы эффективно играть в сложные компьютерные игры. Главный интерес здесь заключается в изучении механизмов быстрой адаптации и переноса опыта (transfer learning), которыми обладают люди. Человек способен освоить базовые правила новой для него игры (например, волейбола) всего за 10–15 минут благодаря накопленному жизненному опыту. Если посадить на площадку младенца, он потерпит неудачу, но взрослый использует паттерны из других жизненных ситуаций. OpenAI стремится воспроизвести этот механизм, объединяя сотни компьютерных игр в единую обучающую среду для ИИ.

В индустрии уже есть громкие успехи в области глубокого обучения с подкреплением (Deep Reinforcement Learning) — первопроходцем в этой сфере выступила британская лаборатория DeepMind. Однако у этого подхода есть критический недостаток. Обучение ИИ занимает колоссальное количество времени в масштабах реального времени. Чтобы освоить простейшую игру для приставки Atari, модели требуется эквивалент трех лет непрерывного игрового процесса. За счет параллельных вычислений на суперкомпьютерах этот процесс удается сжать до нескольких дней, но человеку на ту же задачу по-прежнему требуется всего 10 минут.

По мнению Войцеха Зарембы, классическое обучение с подкреплением (RL) имеет концептуальные изъяны:

  1. Проблема источника наград: ИИ в игре оптимизирует показатель счета (score), который предоставляет компьютер. В реальном мире четких наград нет. Маленькие дети успешно играют в игры, даже не умея читать и не понимая цифр на табло — их мотивируют звуки, визуальные эффекты или внутреннее любопытство.
  2. Невозможность симуляции «сброса»: RL-агенты требуют миллионов попыток и возможности мгновенно перезапустить (reset) среду после ошибки. В физической реальности это неосуществимо.

Именно поэтому Войцех Заремба выбрал робототехнику. Если мы хотим научить робота приготовить яичницу-болтунью, мы сталкиваемся с тем, что критерии успеха (расстояние от руки до сковороды, сила удара по скорлупе, степень прожарки) невероятно трудно оцифровать в виде математической функции награды. Реальный мир заставляет ученых искать принципиально новые подходы к обучению машин.

🧠 Разбираем термины: разница между AI, Machine Learning и Deep Learning 10:18

Чтобы избежать путаницы, сооснователь OpenAI предлагает четкую иерархию понятий, которая часто размывается в маркетинговых материалах стартапов.

Искусственный интеллект (AI) — это максимально широкая область, включающая в себя любое программное обеспечение, способное решать интеллектуальные задачи. Сюда входят системы, написанные полностью вручную на основе жестких правил (rule-based systems). В качестве примера Войцех Заремба приводит первую версию поискового алгоритма Google — PageRank. Изначально он вообще не содержал машинного обучения и работал по строгому математическому алгоритму, подсчитывая количество входящих ссылок на веб-страницы. Тем не менее, это был полноценный ИИ. Позже Google интегрировал машинное обучение для улучшения выдачи, хотя долгое время избегал его из-за сложности интерпретации результатов.

Машиностроение и машинное обучение (Machine Learning) — это подмножество ИИ, где программа не пишется разработчиком вручную, а генерируется автоматически на основе анализа данных. Самым популярным направлением здесь является обучение с учителем (Supervised Learning). Система получает на вход пары данных $X$ и $Y$ (например: текст email-письма и метка «спам / не спам»; изображение и его категория). На основе этой статистики алгоритм строит функцию («черный ящик»), которая способна предсказывать корректные значения $Y$ для совершенно новых, ранее не виденных примеров $X$.

Глубокое обучение (Deep Learning) — это конкретная парадигма внутри машинного обучения. Как подчеркивает исследователь, базовая идея здесь парадоксально проста: вычисления, которые производит программа с входными данными, должны состоять из множества последовательных шагов (слоев), а не из одного.

📈 Эволюция нейросетей: от ручных признаков к ReLU и градиентному спуску 16:16

Долгое время в индустрии доминировали «поверхностные» (shallow) модели машинного обучения. Причина была сугубо математической: для одношаговых вычислений ученые могли легко доказать строгие теоремы, тогда как для многослойных систем математические доказательства были и остаются крайне слабыми.

Старые рекомендательные системы (например, для фильмов) работали за счет ручной генерации гигантского количества признаков (фич). Инженеры создавали сотни тысяч бинарных вопросов: «Фильм длиннее двух часов?», «Это триллер?», «Там играет конкретный актер?». Затем простой классификатор взвешивал эти признаки и выдавал вердикт. Глубокое обучение кардинально изменило подход: теперь система сама комбинирует и выстраивает иерархию признаков на разных вычислительных этапах.

Главным воплощением глубокого обучения стали искусственные нейронные сети. Концептуально нейросеть представляет собой последовательность слоев, выраженных в виде матриц. Входные данные умножаются на матрицу весов, после чего к результату применяется функция нелинейности (активации), и процесс повторяется для следующего слоя. Нелинейность критически важна: без нее последовательное умножение на несколько матриц математически схлопнулось бы в умножение на одну-единственную матрицу, превратив глубокую сеть в обычную плоскую модель.

Исторически в качестве функции активации использовалась сигмоида (sigmoid) — S-образная функция, которая сжимала входные значения в диапазон от 0 до 1. Однако на практике гораздо более эффективной оказалась архитектура ReLU (Rectified Linear Unit), которая устроена предельно просто: $f(x) = \max(0, x)$. Если значение отрицательное — оно превращается в ноль, если положительное — копируется без изменений. Подбор параметров (весов) в таких сетях осуществляется с помощью алгоритма стохастического градиентного спуска (Stochastic Gradient Descent, SGD), который, несмотря на свою простоту, до сих пор показывает наилучшие эмпирические результаты по сравнению с другими биологически вдохновленными методами (например, обучением Хебба).

👁️ Революция ImageNet и секрет инициализации весов 22:53

Долгое время научное сообщество не верило, что глубокие нейросети можно эффективно обучать. Ситуацию изменили два мощных фактора: качественный скачок в вычислительных мощностях и фундаментальные архитектурные открытия.

Одним из таких открытий стали сверточные нейронные сети (Convolutional Neural Networks, CNN). Если подать изображение размером 200 на 200 пикселей со стандартными тремя цветовыми каналами на обычную полносвязную сеть, размер входного вектора составит 12 000 значений. Попытка умножить его на матрицу аналогичного размера приведет к созданию гигантского количества параметров, а стандартный алгоритм обратного распространения ошибки (backpropagation) выдаст крайне плохой результат.

Сверточные сети решают эту проблему за счет копирования весов (weight sharing) в пространстве. Алгоритм применяет абсолютно одинаковые локальные математические преобразования как в центре изображения, так и в его углах. Интересно, что этот же метод совершил революцию в распознавании речи. С помощью преобразования Фурье звуковая волна превращается в спектрограмму (двумерную картинку, где по оси X отложено время, а по оси Y — частоты). В результате современные аудиосистемы обрабатывают звук точно так же, как изображения, что позволило разным группам ученых объединиться вокруг единых ИИ-архитектур.

Вторым неочевидным прорывом стал правильный подход к инициализации случайных весов перед стартом обучения. Исследователи из лаборатории Джеффри Хинтона (Geoffrey Hinton) в Университете Торонто обнаружили, что если начальные веса выбрать неверно, амплитуда сигналов при прохождении через 10 слоев либо взрывается (увеличивается в геометрической прогрессии), либо угасает до нуля, полностью блокируя обучение. Тонкая настройка дисперсии начальных весов (чтобы масштаб выходных данных соответствовал масштабу входных) открыла возможность сквозного обучения глубоких моделей.

Эмпирическим подтверждением силы глубокого обучения стали результаты на датасете ImageNet, собранном профессором Стэнфорда Фей-Фей Ли (Fei-Fei Li). База данных содержала 1 миллион изображений, разделенных на 1000 классов (включая огромное количество редких пород собак, но исключая фотографии людей). До 2012 года классические алгоритмы компьютерного зрения имели огромный процент ошибок (около 25–50%) и могли легко спутать небо с автомобилем. На конкурсе 2012 года команда Джеффри Хинтона, в которую входили Алекс Крижевский (Alex Krizhevsky) и Илья Суцкевер (Ilya Sutskever), представила нейросеть AlexNet, показавшую феноменальный результат — всего 15% ошибок, оторвавшись от ближайших конкурентов сразу на 10%. Всего за три последующих года точность нейросетей на ImageNet удалось довести до 3% ошибок, что превзошло возможности среднестатистического человека.

🗣️ Перевод как последовательность: прорыв ИТ-архитектур 38:47

Вслед за компьютерным зрением глубокое обучение трансформировало сферу машинного перевода. Историческим прорывом в этой области стала работа Ильи Суцкевера, предложившего концепцию Sequence to Sequence (Seq2Seq). Главная сложность перевода заключалась в том, что и входящее предложение, и исходящий перевод имеют переменную, заранее не известную длину.

Для решения этой задачи были задействованы рекуррентные нейронные сети (Recurrent Neural Networks, RNN). Если сверточные сети копируют параметры в пространстве, то рекуррентные сети копируют их во времени. Алгоритм последовательно читает текст слева направо:

  1. Потребляет первое слово и формирует «скрытое состояние» (hidden state) — цифровой контекст.
  2. Берет второе слово, соединяет его с предыдущим скрытым состоянием и генерирует новое скрытое состояние.
  3. Повторяет этот шаг до конца предложения, сохраняя фиксированный размер сети независимо от длины исходного текста.

В рамках архитектуры Seq2Seq модель сначала полностью поглощает исходную фразу слово за словом, а затем переходит в фазу генерации, также пословно генерируя перевод, пока не упрется в финальную точку. На момент своего появления эти решения сравнялись по качеству со старыми промышленными системами (phrase-based переводчиками), а затем полностью вытеснили их с рынка.

Основным барьером для их моментального повсеместного внедрения в продакшн оставалась высокая вычислительная стоимость. Чтобы решить эту проблему, инженеры используют методы оптимизации: прунинг (удаление избыточных весов) и квантование (перевод вычислений из тяжелого 32-битного формата с плавающей точкой в более легковесные форматы данных).

🔮 Настоящее и будущее: узкий ИИ, хайп и безусловный базовый доход 43:33

Войцех Заремба призывает прагматично оценивать текущее состояние индустрии и разделять три ключевых понятия:

По оценке сооснователя OpenAI, текущий рынок одновременно перегрет и недооценен. В сфере коммерческого применения реальными бизнес-результатами обладает исключительно парадигма обучения с учителем (Supervised Learning). Любую бизнес-задачу, которую можно сформулировать в виде поиска соответствия между понятным входом и выходом при наличии большой размеченной базы данных, сегодня можно решить на сверхчеловеческом уровне. Рекомендации товаров в Amazon или ранжирование поисковой выдачи в Google на основе кликов пользователей — идеальные примеры работающего ИИ. В то же время, задачи, требующие физического взаимодействия (как работа робота по сбору яблок), буксуют: распознать яблоко на дереве с помощью ИИ сегодня просто, но рассчитать траекторию движения пальцев и физику захвата плода — это фундаментальная научная проблема, которая до сих пор не решена.

Говоря о долгосрочном будущем (в горизонте 10 лет), Войцех Заремба заявляет о неизбежности глубоких социальных потрясений из-за автоматизации низкоквалифицированного труда. Исследователь убежден, что единственным жизнеспособным экономическим решением станет повсеместное введение безусловного базового дохода (UBI).

По его мнению, глупо ожидать, что 40-летний водитель такси сможет успешно переобучаться и кардинально менять профессию каждые 10 лет. Серьезным вызовом станет и психологический кризис: люди привыкли идентифицировать себя через свою работу. Тем не менее, автоматизация способна создать мир материального изобилия, где человечество сможет избавиться от рутины и просто наслаждаться жизнью.

📚 Как войти в индустрию и чем вдохновляться 50:00

Для инженеров и фаундеров, желающих глубоко погрузиться в тему искусственного интеллекта, сооснователь OpenAI дает конкретный список практических рекомендаций:

Для расширения кругозора и понимания философского контекста развития технологий Войцех Заремба рекомендует книгу Юваля Ноя Харари «Homo Deus: Краткая история будущего», которая глубоко анализирует пройденный человечеством путь и дает долгосрочные прогнозы. Среди художественных произведений о взаимодействии человека и ИИ спикер выделяет фильмы «Она» (Her) и «Из машины» (Ex Machina) как наиболее качественные и близкие к реальности кинематографические работы.

💬 Цитаты

«В робототехнике существует три семейства задач: локомоция, навигация и манипуляция. Последняя на сегодняшний день является самой сложной.»

Войцех Заремба 02:55

«Я суперсильно верю, что нам придется предложить людям безусловный базовый доход. Это единственный путь.»

Войцех Заремба 52:15
👥 Спикеры
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
ReLU (Rectified Linear Unit)
Простейшая функция активации нейросети, которая заменяет все отрицательные значения нулями, а положительные оставляет без изменений.
Стохастический градиентный спуск (SGD)
Базовый и наиболее эффективный на практике алгоритм оптимизации, используемый для подбора весов в процессе обучения нейросетей.
ImageNet
Масштабный академический датасет из миллиона размеченных изображений, победа на котором в 2012 году ознаменовала начало эпохи глубокого обучения.
Обучение с подкреплением (Reinforcement Learning)
Метод машинного обучения, при котором автономный агент учится принимать решения в среде, максимизируя получаемую от нее цифровую награду.
📊 Цифры
🗓 Хронология
  1. 2012 Исторический триумф глубокой сверточной нейросети AlexNet на соревновании по распознаванию образов ImageNet.
⚖️ Другая сторона
Искусственный интеллект Войцех Заремба OpenAI Deep Learning ImageNet