Илья Суцкевер: «Зрение и язык — это одна и та же задача для ИИ»

В этом глубоком диалоге Илья Суцкевер, один из самых влиятельных ученых в области современного искусственного интеллекта и сооснователь OpenAI, обсуждает с Лексом Фридманом фундаментальное единство различных модальностей машинного обучения. Они исследуют вопросы конвергенции архитектур, специфику обучения с подкреплением и пытаются нащупать границу, где заканчивается визуальное восприятие и начинается языковое мышление.

🧩 Единство машинного обучения и общие принципы 0:01

По мнению Ильи Суцкевера, современное машинное обучение — это область, обладающая колоссальным внутренним единством . Несмотря на разнообразие задач (зрение, текст, управление), в их основе лежат всего два-три фундаментальных принципа, которые применяются практически идентично ко всем модальностям .

Это единство проявляется в следующих аспектах:

Перенос идей: Любое исследование, улучшающее оптимизацию глубокого обучения в компьютерном зрении, почти неизбежно находит применение в обработке естественного языка (NLP) и обучении с подкреплением (RL) .
Унификация архитектур: Если раньше для каждой мелкой задачи в ИИ существовала своя специализированная архитектура и набор инженерных хитростей («фич»), то сегодня глубокое обучение поглотило эту фрагментацию .
Трансформеры как стандарт: Суцкевер отмечает, что в NLP уже произошел переход к единой архитектуре — трансформеру, который заменил десятки разрозненных решений .

👁️ Зрение против Языка: путь к единой архитектуре 1:20

На данный момент компьютерное зрение и NLP остаются очень похожими, но все же различаются в архитектурном плане: в лингвистических задачах доминируют трансформеры, а в визуальных — сверточные нейронные сети (CNN) . Однако Илья Суцкевер не исключает, что в будущем эта граница сотрется.

Он выдвигает следующие тезисы:

Эффективность CNN: Сверточные сети сохраняют популярность в зрении благодаря своей исключительной вычислительной эффективности .
Прогноз на унификацию: Гость ожидает, что со временем зрение и язык будут объединены в рамках одной архитектуры .
Идеальный «черный ящик»: Суцкевер представляет будущее ИИ как один большой «черный ящик», в который можно «забрасывать лопатой» любые данные, а система сама разберется, что с ними делать, независимо от их типа .

🕹️ Обучение с подкреплением (RL): особый случай 3:15

Лекс Фридман предполагает, что обучение с подкреплением — это своего рода союз языка и зрения, объединяющий богатый сенсорный опыт с долговременной памятью . Суцкевер, однако, считает RL самостоятельной сущностью, которая естественным образом интегрируется с другими модальностями .

Ключевые отличия RL, по мнению Суцкевера:

Нестационарность мира: В отличие от статичных задач классификации, в RL действия агента меняют мир вокруг него. То, что агент видит в следующий момент, напрямую зависит от его предыдущих решений .
Проблема исследования (Exploration): Агенту необходимо активно пробовать новое, чтобы находить оптимальные стратегии.
Высокая дисперсия (Variance): Математически градиенты в RL гораздо более зашумлены, что требует специальных инструментов для их стабилизации .

Тем не менее, гость подчеркивает, что даже в RL используются те же нейронные сети, те же градиентные методы и тот же оптимизатор Adam, что и в других областях .

🧠 Что сложнее: понимать текст или видеть сцену? 4:40

Обсуждая идеи Ноама Хомского о том, что язык является фундаментом всего человеческого мышления, собеседники пытаются определить, какая задача сложнее для ИИ .

Илья Суцкевер считает сам вопрос о «сложности» не совсем корректным и предлагает смотреть на него через призму человеческого уровня :

Определение сложности: По словам Ильи, сложность задачи зависит от усилий, необходимых для достижения уровня человека на определенном бенчмарке (тесте) .
Субъективность: Как только задача решается, она перестает казаться сложной .
Текущий статус: Суцкевер утверждает, что сегодня и идеальное понимание языка, и идеальное визуальное восприятие остаются «сложными», так как ни одна система не решит их полностью в ближайшие три месяца .

При попытке сделать выбор, Илья склоняется к тому, что «абсолютное, 100-процентное понимание языка» все же может оказаться более трудной вершиной .

📖 Где заканчивается зрение и начинается смысл? 6:25

Граница между модальностями часто оказывается иллюзорной. Суцкевер приводит пример: если показать системе лист бумаги с буквами, является ли их распознавание задачей зрения или уже языка?

Гипотеза неразрывности: Суцкевер полагает, что невозможно достичь по-настоящему глубокого понимания в одной области (например, в картинках), не используя те же механизмы, что и в другой (языке) . Скорее всего, при достижении определенного уровня качества в машинном обучении, решение одной задачи даст решение другой «бесплатно» .
Проблема «впечатления»: Лекс Фридман отмечает, что люди перестают впечатляться интеллектом ИИ очень быстро . В отличие от машин, люди способны удивлять друг друга десятилетиями (Фридман приводит в пример институт брака и долгосрочную дружбу) .
Критерий истинного интеллекта: По мнению Фридмана, ключом к ощущению настоящего интеллекта является способность системы постоянно генерировать новые, остроумные и вдохновляющие идеи, а также чувство юмора .

Суцкевер резюмирует, что хотя системы начала 2020 года еще не способны на глубокое понимание сложных визуальных сцен, вызывающее долгое восхищение, ИИ неизбежно придет и к этому, и к пониманию юмора и инсайтов .