# Илья Суцкевер: «Зрение и язык — это одна и та же задача для ИИ»

Источник: https://www.youtube.com/watch?v=xoVibFYi1Gs
Канал: Lex Fridman
Опубликовано: 10.05.2020

---

В этом глубоком диалоге Илья Суцкевер, один из самых влиятельных ученых в области современного искусственного интеллекта и сооснователь OpenAI, обсуждает с Лексом Фридманом фундаментальное единство различных модальностей машинного обучения. Они исследуют вопросы конвергенции архитектур, специфику обучения с подкреплением и пытаются нащупать границу, где заканчивается визуальное восприятие и начинается языковое мышление.

## 🧩 Единство машинного обучения и общие принципы
[[JUMP:0:01]]

По мнению Ильи Суцкевера, современное машинное обучение — это область, обладающая колоссальным внутренним единством [0:42]. Несмотря на разнообразие задач (зрение, текст, управление), в их основе лежат всего два-три фундаментальных принципа, которые применяются практически идентично ко всем модальностям [0:54].

Это единство проявляется в следующих аспектах:

*   **Перенос идей:** Любое исследование, улучшающее оптимизацию глубокого обучения в компьютерном зрении, почти неизбежно находит применение в обработке естественного языка (NLP) и обучении с подкреплением (RL) [1:07].
*   **Унификация архитектур:** Если раньше для каждой мелкой задачи в ИИ существовала своя специализированная архитектура и набор инженерных хитростей («фич»), то сегодня глубокое обучение поглотило эту фрагментацию [1:58].
*   **Трансформеры как стандарт:** Суцкевер отмечает, что в NLP уже произошел переход к единой архитектуре — трансформеру, который заменил десятки разрозненных решений [1:45].

## 👁️ Зрение против Языка: путь к единой архитектуре
[[JUMP:1:20]]

На данный момент компьютерное зрение и NLP остаются очень похожими, но все же различаются в архитектурном плане: в лингвистических задачах доминируют трансформеры, а в визуальных — сверточные нейронные сети (CNN) [1:20]. Однако Илья Суцкевер не исключает, что в будущем эта граница сотрется.

Он выдвигает следующие тезисы:

*   **Эффективность CNN:** Сверточные сети сохраняют популярность в зрении благодаря своей исключительной вычислительной эффективности [2:11].
*   **Прогноз на унификацию:** Гость ожидает, что со временем зрение и язык будут объединены в рамках одной архитектуры [2:11].
*   **Идеальный «черный ящик»:** Суцкевер представляет будущее ИИ как один большой «черный ящик», в который можно «забрасывать лопатой» любые данные, а система сама разберется, что с ними делать, независимо от их типа [2:38].

## 🕹️ Обучение с подкреплением (RL): особый случай
[[JUMP:3:15]]

Лекс Фридман предполагает, что обучение с подкреплением — это своего рода союз языка и зрения, объединяющий богатый сенсорный опыт с долговременной памятью [3:03]. Суцкевер, однако, считает RL самостоятельной сущностью, которая естественным образом интегрируется с другими модальностями [3:15].

Ключевые отличия RL, по мнению Суцкевера:

1.  **Нестационарность мира:** В отличие от статичных задач классификации, в RL действия агента меняют мир вокруг него. То, что агент видит в следующий момент, напрямую зависит от его предыдущих решений [3:43].
2.  **Проблема исследования (Exploration):** Агенту необходимо активно пробовать новое, чтобы находить оптимальные стратегии.
3.  **Высокая дисперсия (Variance):** Математически градиенты в RL гораздо более зашумлены, что требует специальных инструментов для их стабилизации [4:10].

Тем не менее, гость подчеркивает, что даже в RL используются те же нейронные сети, те же градиентные методы и тот же оптимизатор Adam, что и в других областях [4:25].

## 🧠 Что сложнее: понимать текст или видеть сцену?
[[JUMP:4:40]]

Обсуждая идеи Ноама Хомского о том, что язык является фундаментом всего человеческого мышления, собеседники пытаются определить, какая задача сложнее для ИИ [4:40].

Илья Суцкевер считает сам вопрос о «сложности» не совсем корректным и предлагает смотреть на него через призму человеческого уровня [5:07]:

*   **Определение сложности:** По словам Ильи, сложность задачи зависит от усилий, необходимых для достижения уровня человека на определенном бенчмарке (тесте) [5:20].
*   **Субъективность:** Как только задача решается, она перестает казаться сложной [5:32].
*   **Текущий статус:** Суцкевер утверждает, что сегодня и идеальное понимание языка, и идеальное визуальное восприятие остаются «сложными», так как ни одна система не решит их полностью в ближайшие три месяца [5:46].

При попытке сделать выбор, Илья склоняется к тому, что «абсолютное, 100-процентное понимание языка» все же может оказаться более трудной вершиной [6:12].

## 📖 Где заканчивается зрение и начинается смысл?
[[JUMP:6:25]]

Граница между модальностями часто оказывается иллюзорной. Суцкевер приводит пример: если показать системе лист бумаги с буквами, является ли их распознавание задачей зрения или уже языка? [6:25]

*   **Гипотеза неразрывности:** Суцкевер полагает, что невозможно достичь по-настоящему глубокого понимания в одной области (например, в картинках), не используя те же механизмы, что и в другой (языке) [7:15]. Скорее всего, при достижении определенного уровня качества в машинном обучении, решение одной задачи даст решение другой «бесплатно» [7:28].
*   **Проблема «впечатления»:** Лекс Фридман отмечает, что люди перестают впечатляться интеллектом ИИ очень быстро [8:06]. В отличие от машин, люди способны удивлять друг друга десятилетиями (Фридман приводит в пример институт брака и долгосрочную дружбу) [8:18].
*   **Критерий истинного интеллекта:** По мнению Фридмана, ключом к ощущению настоящего интеллекта является способность системы постоянно генерировать новые, остроумные и вдохновляющие идеи, а также чувство юмора [8:32].

Суцкевер резюмирует, что хотя системы начала 2020 года еще не способны на глубокое понимание сложных визуальных сцен, вызывающее долгое восхищение, ИИ неизбежно придет и к этому, и к пониманию юмора и инсайтов [9:13].