В этом глубоком диалоге Илья Суцкевер, один из самых влиятельных ученых в области современного искусственного интеллекта и сооснователь OpenAI, обсуждает с Лексом Фридманом фундаментальное единство различных модальностей машинного обучения. Они исследуют вопросы конвергенции архитектур, специфику обучения с подкреплением и пытаются нащупать границу, где заканчивается визуальное восприятие и начинается языковое мышление.
🧩 Единство машинного обучения и общие принципы 0:01
По мнению Ильи Суцкевера, современное машинное обучение — это область, обладающая колоссальным внутренним единством . Несмотря на разнообразие задач (зрение, текст, управление), в их основе лежат всего два-три фундаментальных принципа, которые применяются практически идентично ко всем модальностям .
Это единство проявляется в следующих аспектах:
- Перенос идей: Любое исследование, улучшающее оптимизацию глубокого обучения в компьютерном зрении, почти неизбежно находит применение в обработке естественного языка (NLP) и обучении с подкреплением (RL) .
- Унификация архитектур: Если раньше для каждой мелкой задачи в ИИ существовала своя специализированная архитектура и набор инженерных хитростей («фич»), то сегодня глубокое обучение поглотило эту фрагментацию .
- Трансформеры как стандарт: Суцкевер отмечает, что в NLP уже произошел переход к единой архитектуре — трансформеру, который заменил десятки разрозненных решений .
👁️ Зрение против Языка: путь к единой архитектуре 1:20
На данный момент компьютерное зрение и NLP остаются очень похожими, но все же различаются в архитектурном плане: в лингвистических задачах доминируют трансформеры, а в визуальных — сверточные нейронные сети (CNN) . Однако Илья Суцкевер не исключает, что в будущем эта граница сотрется.
Он выдвигает следующие тезисы:
- Эффективность CNN: Сверточные сети сохраняют популярность в зрении благодаря своей исключительной вычислительной эффективности .
- Прогноз на унификацию: Гость ожидает, что со временем зрение и язык будут объединены в рамках одной архитектуры .
- Идеальный «черный ящик»: Суцкевер представляет будущее ИИ как один большой «черный ящик», в который можно «забрасывать лопатой» любые данные, а система сама разберется, что с ними делать, независимо от их типа .
🕹️ Обучение с подкреплением (RL): особый случай 3:15
Лекс Фридман предполагает, что обучение с подкреплением — это своего рода союз языка и зрения, объединяющий богатый сенсорный опыт с долговременной памятью . Суцкевер, однако, считает RL самостоятельной сущностью, которая естественным образом интегрируется с другими модальностями .
Ключевые отличия RL, по мнению Суцкевера:
- Нестационарность мира: В отличие от статичных задач классификации, в RL действия агента меняют мир вокруг него. То, что агент видит в следующий момент, напрямую зависит от его предыдущих решений .
- Проблема исследования (Exploration): Агенту необходимо активно пробовать новое, чтобы находить оптимальные стратегии.
- Высокая дисперсия (Variance): Математически градиенты в RL гораздо более зашумлены, что требует специальных инструментов для их стабилизации .
Тем не менее, гость подчеркивает, что даже в RL используются те же нейронные сети, те же градиентные методы и тот же оптимизатор Adam, что и в других областях .
🧠 Что сложнее: понимать текст или видеть сцену? 4:40
Обсуждая идеи Ноама Хомского о том, что язык является фундаментом всего человеческого мышления, собеседники пытаются определить, какая задача сложнее для ИИ .
Илья Суцкевер считает сам вопрос о «сложности» не совсем корректным и предлагает смотреть на него через призму человеческого уровня :
- Определение сложности: По словам Ильи, сложность задачи зависит от усилий, необходимых для достижения уровня человека на определенном бенчмарке (тесте) .
- Субъективность: Как только задача решается, она перестает казаться сложной .
- Текущий статус: Суцкевер утверждает, что сегодня и идеальное понимание языка, и идеальное визуальное восприятие остаются «сложными», так как ни одна система не решит их полностью в ближайшие три месяца .
При попытке сделать выбор, Илья склоняется к тому, что «абсолютное, 100-процентное понимание языка» все же может оказаться более трудной вершиной .
📖 Где заканчивается зрение и начинается смысл? 6:25
Граница между модальностями часто оказывается иллюзорной. Суцкевер приводит пример: если показать системе лист бумаги с буквами, является ли их распознавание задачей зрения или уже языка?
- Гипотеза неразрывности: Суцкевер полагает, что невозможно достичь по-настоящему глубокого понимания в одной области (например, в картинках), не используя те же механизмы, что и в другой (языке) . Скорее всего, при достижении определенного уровня качества в машинном обучении, решение одной задачи даст решение другой «бесплатно» .
- Проблема «впечатления»: Лекс Фридман отмечает, что люди перестают впечатляться интеллектом ИИ очень быстро . В отличие от машин, люди способны удивлять друг друга десятилетиями (Фридман приводит в пример институт брака и долгосрочную дружбу) .
- Критерий истинного интеллекта: По мнению Фридмана, ключом к ощущению настоящего интеллекта является способность системы постоянно генерировать новые, остроумные и вдохновляющие идеи, а также чувство юмора .
Суцкевер резюмирует, что хотя системы начала 2020 года еще не способны на глубокое понимание сложных визуальных сцен, вызывающее долгое восхищение, ИИ неизбежно придет и к этому, и к пониманию юмора и инсайтов .