# Как стать исследователем выравнивания ИИ: подробный гид Яна Лейке

Источник: https://www.youtube.com/watch?v=pmnTEsmGZuU
Канал: 80,000 Hours
Опубликовано: 16.09.2018

---

С стремительным развитием систем искусственного интеллекта вопросы их безопасности и предсказуемости переходят из плоскости научной фантастики в сферу прагматичных инженерных задач. В данном материале на основе интервью для подкаста 80,000 Hours исследователь Ян Лейке (Jan Leike) подробно рассказывает, как устроена работа над выравниванием ИИ (AI alignment) в ведущих мировых лабораториях. Текст представляет собой детальный разбор технических подходов к созданию безопасных алгоритмов и практическое руководство для тех, кто хочет посвятить свою карьеру этой дисциплине.

## 🧠 Проблема выравнивания ИИ и общественные заблуждения
[[JUMP:1:42]]

Искусственный интеллект и машинное обучение переживают период стремительного прогресса, который, по оценкам специалистов, продолжится и в будущем. Ян Лейке отмечает, что этот потенциал можно использовать для решения важнейших глобальных проблем, включая бедность и страдания животных. Однако появление столь мощных технологий сопряжено с серьезными рисками. 

Классический сценарий угрозы заключается в том, что разработчики создают мощный ИИ и задают ему целевую функцию (objective function), которую легко формализовать, но которая не полностью отражает истинные намерения людей. В результате система начинает жестко оптимизировать заданный параметр, приводя к непредвиденным и опасным последствиям: человек получает ровно то, что описал в коде, но не то, чего действительно хотел. Данное направление исследований призвано решить эту проблему, однако Лейке указывает на деструктивную поляризацию в общественных дискуссиях вокруг безопасности ИИ.

По наблюдениям исследователя, публичные дебаты сейчас разделены на два неконструктивных лагеря:

* Первая группа призывает сосредоточиться исключительно на краткосрочных проблемах вроде беспилотных автомобилей и безработицы.
* Вторая группа фокусируется на далеком будущем и, как считает Лейке, склонна занимать излишне паническую и алармистскую позицию (в качестве примера гость приводит риторику Илона Маска).

Вместо этого обществу необходимы взвешенные, осознанные и информированные дебаты, поскольку создание сильного искусственного интеллекта (AGI) потребует принятия множества сложных коллективных решений. 

Сам термин «безопасность ИИ» (AI safety), по мнению Лейке, является не самым удачным, так как подсознательно намекает, будто остальные исследования в области ИИ небезопасны. Тем не менее, это название уже закрепилось в индустрии наряду с такими понятиями, как «проблема выравнивания» (alignment problem), а также стратегические и политические исследования в сфере ИИ.

## 🤸‍♂️ Практический эксперимент: сальто виртуального робота
[[JUMP:5:42]]

В качестве примера реальной технической работы Ян Лейке приводит совместное исследование лабораторий DeepMind и OpenAI под названием «Глубокое обучение с подкреплением на основе человеческих предпочтений» (Deep Reinforcement Learning from Human Preferences). В рамках этого проекта авторам удалось обучить нейросеть выстраивать функцию вознаграждения (reward function) на основе обратной связи от человека.

Механизм работы алгоритма был протестирован на задаче, которую крайне сложно описать формулами вручную — обучении небольшой виртуальной робо-модели (в виде гибкой линии или «лапши») выполнять красивое сальто назад. Вместо программирования математических критериев идеального прыжка исследователи использовали следующий подход:

* Система генерирует и показывает человеку два коротких видеоролика со своим поведением.
* Человек-оператор сравнивает их и выбирает, какой вариант больше похож на сальто назад, либо отмечает, что они одинаковы.
* На основе серии таких простых выборов нейросеть учится понимать, чего от нее хотят.

Для человека подобный процесс оценки интуитивно понятен и прост, что выгодно отличает его от необходимости самостоятельно кодить сложнейшие функции. Лейке сравнивает это с визитом к офтальмологу, который подбирает линзы, поочередно спрашивая: «Так лучше или так?».

В краткосрочной перспективе данный метод позволяет эффективно решать прикладные задачи управления ИИ. В долгосрочной же перспективе Лейке и его коллеги видят в этом важный шаг на пути к созданию AGI. По задумке авторов, когда человечество вплотную приблизится к разработке сильного ИИ или продвинутых домашних роботов, их можно будет обучать общечеловеческим ценностям и конкретным бытовым задачам без привлечения экспертов по программированию — обычные пользователи смогут направлять алгоритмы через простую обратную связь.

## ⚠️ Почему ломаются алгоритмы: сдвиг распределения и уязвимости безопасности
[[JUMP:8:32]]

Несмотря на перспективность обучения по человеческим предпочтениям, текущие системы имеют критические уязвимости. Ян Лейке рассказывает о ситуациях, когда алгоритмы начинают выдавать нежелательные результаты. В ходе экспериментов выяснилось, что если прекратить давать системе обратную связь в режиме реального времени (online), она быстро заходит в тупик и находит «вырожденные решения» (degenerate solutions).

Проблема кроется в так называемом сдвиге распределения (distributional shift):

1.  Когда человек перестает корректировать систему, агент продолжает обучаться и менять свое поведение, из-за чего среда и генерируемые состояния выходят за рамки того, что алгоритм видел изначально.
2.  Компонент, предсказывающий вознаграждение (reward predictor), сталкивается с незнакомыми данными и начинает ошибаться в оценках.
3.  В результате робот осваивает странные, неестественные движения, которые с точки зрения сломавшегося предиктора выглядят идеально, но совершенно не соответствуют желаниям человека.

Как отмечает исследователь, современные глубокие нейросети фатально не умеют выстраивать доверительные интервалы и определять степень собственной неуверенности. Попадая в незнакомые условия, они не останавливаются и не «говорят», что им не хватает данных — они продолжают выдавать ошибочные ответы с абсолютной математической уверенностью. Возможным решением, контраргументируют специалисты, могло бы стать внедрение механизмов детекции аномалий (anomaly detection), однако Лейке признает, что они пока не тестировали этот подход и сомневаются в масштабируемости существующих решений в этой области.

Сам процесс обучения в эксперименте с сальто Лейке разделяет на три независимые части:

* Человек, который отсматривает видео и ранжирует их по качеству выполнения задачи.
* Предиктор вознаграждения, обучающийся имитировать человеческие оценки и переводящий их в численные баллы.
* Стандартный алгоритм обучения с подкреплением (RL), стремящийся максимизировать оценку от предиктора.

Помимо проблем с обучением, сфера ИИ страдает от фундаментальных уязвимостей в безопасности (ML security). Лейке описывает феномен состязательных атак (adversarial attacks), когда минимальное, незаметное для человеческого глаза изменение пикселей на картинке заставляет нейросеть полностью изменить свой вывод и с высокой уверенностью выдать ошибочную классификацию. 

Более того, огромной проблемой являются «атаки черного ящика» (black box attacks). Для их реализации злоумышленнику даже не нужно иметь доступ к исходной модели:

* Атакующий обучает собственную нейросеть с нуля на том же наборе данных, возможно, используя другую архитектуру.
* Создает состязательные искажения ввода для своей модели.
* Эти же искажения с поразительной эффективностью срабатывают и на чужой, целевой модели, переносясь даже между принципиально разными RL-алгоритмами (например, от DQN к A3C).

Лейке упоминает аргументы некоторых исследователей о том, что беспилотные автомобили защищены от таких искажений из-за постоянного движения и изменения углов обзора. Однако гость парирует это ссылкой на недавние работы, доказавшие, что обычные дорожные знаки «Стоп» можно легко дезориентировать минимальными физическими наклейками. Текущее состояние безопасности машинного обучения Лейке сравнивает с ранней эпохой интернета, когда у всех компьютеров были открыты порты, софт было легко взломать, а надежные стратегии защиты еще только предстояло изобрести.

## 🏢 Внутри DeepMind: будни исследователей безопасности
[[JUMP:18:49]]

Работа в области технической безопасности ИИ сегодня привлекательна тем, что это молодое поле, изобилующее «низко висящими плодами». Первопроходцы имеют реальный шанс совершить фундаментальные открытия, которые сформируют индустрию.

Ян Лейке описывает свой типичный рабочий день в лондонском офисе DeepMind как смесь разнообразных интеллектуальных задач:

* Изучение свежих публикаций на репозитории arXiv.
* Участие в рабочих встречах и обсуждение долгосрочного планирования исследований.
* Концептуальный анализ проблем и постановка задач для инженерных команд.

Атмосфера в компании, по словам гостя, сочетает в себе научную строгость и неформальное общение. Офис устроен по принципу open space, что провоцирует спонтанный обмен идеями. Лейке делится личной деталью: прямо напротив его рабочего стола сидят два всемирно известных профессора, с которыми можно в любой момент обсудить сложную задачу. Сотрудники постоянно пересекаются на кофе-поинтах, а по пятницам компания устраивает традиционные вечеринки с пиццей и напитками.

Несмотря на масштабы DeepMind и медийный успех таких проектов, как AlphaGo или исследовательская среда для StarCraft, команда технической безопасности ИИ остается небольшой. Лаборатория активно взаимодействует с OpenAI и Институтом будущего человечества (FHI) при Оксфордском университете, однако Лейке подчеркивает, что дефицит квалифицированных кадров в этом секторе огромен.

## 🎓 Карьерный путь Яна Лейке и критика подходов к отбору талантов
[[JUMP:22:05]]

Ян Лейке вырос и получил базовое образование в Германии, окончив бакалавриат по направлению математики и компьютерных наук во Фрайбурге, а затем там же магистратуру по CS. Ради докторской степени (PhD) в области машинного обучения он переехал в Австралию, в Австралийский национальный университет (ANU), где его научным руководителем стал известный теоретик Маркус Хуттер. После защиты диссертации Лейке около шести месяцев работал постдоком в оксфордском FHI, откуда перешел в DeepMind.

Оглядываясь на карьеру, исследователь признает, что его взгляды изменились. Во время PhD он фокусировался на чистой теории, однако со временем пришел к выводу, что эмпирическая (практическая) работа в области безопасности ИИ сейчас гораздо более дефицитна и сулит быстрый прогресс. От политических исследований (AI policy) Лейке отказался осознанно: по его мнению, разработка соглашений об автономном оружии или кибервзломах крайне важна, но его личное сравнительное преимущество лежит строго в технической плоскости. При приеме в DeepMind ему пришлось пройти нестандартную процедуру: из-за малого размера команды его интервьюировали лично все три основателя компании, а обязательной частью отбора стал знаменитый «квиз DeepMind» на глубокое знание математики, алгоритмов и статистики.

Интересным моментом дискуссии становится явное расхождение во мнениях между Яном Лейке и Дарио Амодеи (одним из руководителей OpenAI на тот момент) по поводу критериев отбора исследователей. Амодеи считает, что лучший способ проверить пригодность человека к науке — дать ему задание быстро воспроизвести результаты недавней сложной статьи и посмотреть на скорость реализации. Лейке критикует этот подход, считая его избыточно сфокусированным на инженерных навыках.

По мнению Лейке, истинными индикаторами исследовательского таланта являются совершенно другие качества:

* Органичность процесса: научный поиск должен приносить удовольствие и происходить естественно, когда человек ловит себя на размышлениях над нерешенными задачами даже в личное время.
* Одержимость головоломками: способность искренне увлекаться сложными вопросами, ответов на которые нет ни у кого в мире.
* Коммуникация: умение ясно, емко и лаконично объяснять свои сложные идеи людям, которые в них изначально не разбираются.

Лейке напоминает, что в таких структурах, как DeepMind, исследователи работают в связке с выделенными инженерами (Research Engineers), которые берут на себя рутину оптимизации кода, освобождая ученым время для высокоуровневой концептуальной работы.

## 🗺️ Практическое руководство: как войти в сферу выравнивания ИИ
[[JUMP:27:26]]

Для тех, кто задумывается о карьере в области AI alignment, Лейке формулирует базовые требования. Минимальный порог математических знаний зависит от выбранного трека. Теоретическое направление требует экстраординарных математических способностей, тогда как для эмпирических исследований достаточно твердого владения фундаментальными дисциплинами: линейной алгеброй, базовым анализом и статистикой (необходимо четко понимать, что такое центральная предельная теорема, собственные векторы или как брать интегралы).

Гораздо важнее, по мнению гостя, особый склад ума:

* Критическое мышление: при чтении научных статей нужно уметь видеть их слабые места и потенциал для доработки. Лейке метафорически сравнивает это с обучением GAN-сетей — исследователь должен развить в себе жесткого «дискриминатора», чтобы его внутренний «генератор» выдавал качественные идеи.
* Аналитическая интуиция: понимание вычислительной сложности алгоритмов и стоимости вычислений.
* Толерантность к неопределенности: способность комфортно работать на передовом краю человеческих знаний, где нет готовых ответов. Это контрастирует со стилем обучения в бакалавриате, который тестирует лишь память и скорость усвоения уже хорошо изученных фактов.

Идеальным базовым образованием Лейке считает совмещенный бакалавриат по компьютерным наукам и математике (направления вроде физики тоже подходят, если они содержат жесткие квантитативные курсы). Он рекомендует студентам всегда выбирать более сложные теоретические предметы вместо простых прикладных и стараться опубликовать хотя бы одну серьезную работу до окончания магистратуры — это послужит железным доказательством исследовательских навыков при поступлении на PhD. При выборе научного руководителя гость советует избегать излишне знаменитых профессоров: у них, как правило, совершенно нет времени на студентов. Лучше найти активного наставника, готового давать регулярную обратную связь. Для интеграции в сообщество полезно посещать ключевые конференции (ICML, NeurIPS, ICLR), предварительно глубоко изучив доклады спикеров, чтобы задавать им точечные, умные вопросы, а не банальности.

В качестве альтернативы классической аспирантуре Лейке упоминает такие программы, как Google Brain Residency, или позиции Research Engineer, где ученая степень не обязательна, но требуются выдающиеся навыки промышленного кодинга и понимание ML-трендов. При этом гость предостерегает молодых специалистов от попыток стать независимыми исследователями безопасности ИИ на ранних этапах карьеры — по его опыту, это почти всегда заканчивается неудачей. Сначала необходимо пройти жесткую школу в авторитетных институтах, наработать «карьерный капитал» и не бояться временно заниматься классическими исследованиями возможностей ИИ (capabilities research), так как инструментарий в обоих случаях идентичен. В качестве промежуточных ступеней для наращивания опыта подойдут стажировки в сильных лабораториях (например, MILA в Монреале) или работа в ML-стартапах.

В случае изменения планов PhD в области машинного обучения оставляет ученому колоссальное количество путей отхода. Спрос на таких специалистов огромен, по выражению гостя, «рынок готов закидать их деньгами». Возможные альтернативные траектории включают прикладные исследования на стыке с медициной (DeepMind Health), уход в коммерческие R&D-лаборатории, а также работу техническими советниками в правительственных структурах для формирования грамотной государственной политики в отношении ИИ.

В завершение Лейке дает однозначную оценку популярной в сообществе эффективного альтруизма стратегии «зарабатывать, чтобы отдавать» (earning to give): по его убеждению, в сфере технической безопасности ИИ дефицит талантов выражен значительно сильнее, чем дефицит финансирования, поэтому индустрии критически нужны сами люди и их интеллект, а не их пожертвования. Главным же минусом своей работы ученый называет колоссальную нагрузку и давящее чувство ответственности — задач и вызовов так много, а людей так мало, что приходится жестко ограничивать себя, чтобы не пытаться сделать все в одиночку и не перегореть.