Илья Суцкевер: «Зрение и язык — это одна и та же задача для ИИ»

Lex Fridman 36 тыс. 9 мин 4 мин 10.05.2020
Главное

В этом глубоком диалоге Илья Суцкевер, один из самых влиятельных ученых в области современного искусственного интеллекта и сооснователь OpenAI, обсуждает с Лексом Фридманом фундаментальное единство различных модальностей машинного обучения. Они исследуют вопросы конвергенции архитектур, специфику обучения с подкреплением и пытаются нащупать границу, где заканчивается визуальное восприятие и начинается языковое мышление.

🧩 Единство машинного обучения и общие принципы 0:01

По мнению Ильи Суцкевера, современное машинное обучение — это область, обладающая колоссальным внутренним единством . Несмотря на разнообразие задач (зрение, текст, управление), в их основе лежат всего два-три фундаментальных принципа, которые применяются практически идентично ко всем модальностям .

Это единство проявляется в следующих аспектах:

👁️ Зрение против Языка: путь к единой архитектуре 1:20

На данный момент компьютерное зрение и NLP остаются очень похожими, но все же различаются в архитектурном плане: в лингвистических задачах доминируют трансформеры, а в визуальных — сверточные нейронные сети (CNN) . Однако Илья Суцкевер не исключает, что в будущем эта граница сотрется.

Он выдвигает следующие тезисы:

🕹️ Обучение с подкреплением (RL): особый случай 3:15

Лекс Фридман предполагает, что обучение с подкреплением — это своего рода союз языка и зрения, объединяющий богатый сенсорный опыт с долговременной памятью . Суцкевер, однако, считает RL самостоятельной сущностью, которая естественным образом интегрируется с другими модальностями .

Ключевые отличия RL, по мнению Суцкевера:

  1. Нестационарность мира: В отличие от статичных задач классификации, в RL действия агента меняют мир вокруг него. То, что агент видит в следующий момент, напрямую зависит от его предыдущих решений .
  2. Проблема исследования (Exploration): Агенту необходимо активно пробовать новое, чтобы находить оптимальные стратегии.
  3. Высокая дисперсия (Variance): Математически градиенты в RL гораздо более зашумлены, что требует специальных инструментов для их стабилизации .

Тем не менее, гость подчеркивает, что даже в RL используются те же нейронные сети, те же градиентные методы и тот же оптимизатор Adam, что и в других областях .

🧠 Что сложнее: понимать текст или видеть сцену? 4:40

Обсуждая идеи Ноама Хомского о том, что язык является фундаментом всего человеческого мышления, собеседники пытаются определить, какая задача сложнее для ИИ .

Илья Суцкевер считает сам вопрос о «сложности» не совсем корректным и предлагает смотреть на него через призму человеческого уровня :

При попытке сделать выбор, Илья склоняется к тому, что «абсолютное, 100-процентное понимание языка» все же может оказаться более трудной вершиной .

📖 Где заканчивается зрение и начинается смысл? 6:25

Граница между модальностями часто оказывается иллюзорной. Суцкевер приводит пример: если показать системе лист бумаги с буквами, является ли их распознавание задачей зрения или уже языка?

Суцкевер резюмирует, что хотя системы начала 2020 года еще не способны на глубокое понимание сложных визуальных сцен, вызывающее долгое восхищение, ИИ неизбежно придет и к этому, и к пониманию юмора и инсайтов .

💬 Цитаты

«Машинное обучение — это область с огромным внутренним единством. Есть всего один, два или три очень простых принципа, которые применимы почти одинаково ко всем модальностям.»

Илья Суцкевер 0:54

«Я представляю это как один большой черный ящик, в который вы просто забрасываете данные лопатой, и он сам разбирается, что делать с тем, что вы туда кинули.»

Илья Суцкевер 2:38
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер (Transformer)
Архитектура нейронных сетей, основанная на механизме внимания, ставшая стандартом в обработке естественного языка.
Сверточная нейронная сеть (CNN)
Тип нейросетей, наиболее эффективный для анализа визуальных образов и распознавания изображений.
Нестационарность (Non-stationarity)
Свойство среды в обучении с подкреплением, где распределение данных меняется в зависимости от действий агента.
Adam
Популярный алгоритм оптимизации градиентного спуска, используемый для обучения нейронных сетей.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект OpenAI Илья Суцкевер Transformers Deep Learning Reinforcement Learning