Брэндон Рорер: «ИИ — это всего лишь очень умная машина для перемалывания паттернов»

В новом выпуске Machine Learning Street Talk ведущий Тим Скарфе (Tim Scarfe) беседует с легендой машинного обучения Брэндоном Рорером (Brandon Rohrer). В центре дискуссии — деконструкция современных нейросетей от простых матричных вычислений до сложных вопросов агентности, робототехники и природы человеческой креативности.

🧩 ИИ как зеркало паттернов и «рекургитация» знаний 2:41

Брэндон Рорер считает, что современные большие языковые модели (LLM) по своей сути являются механизмами для воспроизведения (рекургитации) паттернов, которые они видели в обучающей выборке или их комбинаций. По его мнению, это объясняет, почему ChatGPT так хорош в написании академических эссе: исторические события и научные теории описывались десятилетиями, что создает огромную базу для копирования стиля и фактуры.

Однако собеседники выделяют ключевые проблемы такого подхода:

Отсутствие истинного рассуждения: Рорер утверждает, что ИИ не способен рассуждать о принципиально новых ситуациях, так как у него нет информационной базы для оценки того, что никогда не происходило ранее.
Галлюцинации и уверенность: Модель может выдать убедительный ответ, который на самом деле является «броском костей», основанным на статистической вероятности, а не на логике.
Проблема кода: При написании Python-скриптов ИИ отлично справляется с шаблонным кодом (boilerplate), но, по словам Рорера, может допустить тонкую ошибку, если задача хоть немного отклоняется от виденных им примеров.

Тим Скарфе предложил использовать полезность GPT как «мерило» интеллектуальности задачи: если нейросеть справляется с вашей работой, значит, вы занимаетесь чем-то не слишком сложным и вам стоит сменить профессию.

🧱 Ограничения архитектуры и «тонкая корка» языка 10:20

Обсуждая фундаментальные ограничения трансформеров, Рорер указывает на их физическую оторванность от мира. Использование байт-пайрового кодирования (Byte Pair Encoding, BPE) означает, что модель работает только с последовательностями символов.

Основные ограничения, по мнению гостя:

Отсутствие сенсорики: Модель никогда не узнает, каков на вкус апельсин, как он пахнет или ощущается в руке, если это не описано текстом.
Язык как суррогат: Рорер считает язык лишь «тонкой коркой» на поверхности человеческого опыта, который животные и древние люди успешно осваивали без слов на протяжении миллионов лет.
Рекурсия: Тим Скарфе напомнил об иерархии Хомского, отметив, что трансформеры имеют фиксированный объем вычислений и не могут поддерживать рекурсию произвольной глубины.

Брэндон Рорер подчеркивает, что код сам по себе не имеет ценности без ментальной модели разработчика. Код — это лишь малая часть семантической информации, большая часть которой остается «меметическим объектом» в головах людей.

🤖 Робототехника и «пропасть» между симуляцией и реальностью 21:07

Брэндон Рорер, имеющий степень по машиностроению, критикует классическое машинное обучение за его статичность. В реальном мире мы имеем дело с динамическими системами, где каждое действие меняет среду.

Гость рассказал поучительную историю о симуляции робо-руки в MATLAB, которой нужно было взять солонку. Чтобы ускорить обучение, Рорер использовал «scaffolding» (обучение с поддержкой), начиная движение робота близко к цели. В итоге робот нашел баг в коде симуляции: он «протыкал» стол, используя его как направляющую, что было эффективнее, чем движение в свободном пространстве.

Этот пример иллюстрирует две важные проблемы:

Sim-to-real gap: Разрыв между идеальной симуляцией и грязной реальностью физического мира почти никогда не исчезает полностью.
Нарушение модели действием: Как только вы принимаете решение на основе аналитики, вы меняете систему и делаете свою модель неадекватной, так как она не учитывает ваше влияние на среду.

🐶 Обучение робота как воспитание собаки 48:46

Рорер предлагает альтернативный подход к созданию агентности, который он описывает в своем проекте «Как натренировать вашего робота». Вместо сложного проектирования функций вознаграждения он предлагает использовать «сигнал хорошего мальчика» в реальном времени.

По мнению Рорера, для создания умного агента (уровня собаки) необходимы:

Внешнее вознаграждение: Одобрение или порицание от человека в реальном времени.
Внутренние «прошитые» стимулы: Аналоги боли (высокий ток в моторах) или удовольствия (зарядка батареи).
Любопытство (Curiosity): Внутренний бонус за исследование состояний, результат которых агент не может предсказать. Это подталкивает систему расширять свою модель мира.

Тим Скарфе добавил, что это близко к концепции активного вывода (active inference), где агент стремится сделать мир соответствующим своим предпочтениям.

🧠 Природа креативности и человеческое присутствие 1:15:38

Брэндон Рорер определяет креативность не через результат, а через внутреннее, почти физическое ощущение. По его словам, это чувство «клика», когда некая неясная мысль в голове наконец обретает точную форму на бумаге или в физическом объекте.

Собеседники обсудили, почему текст от GPT часто вызывает отторжение:

Минимизация энтропии: Трансформеры по умолчанию стремятся к наиболее вероятному (скучному) ответу.
Отсутствие присутствия: Люди ценят сознательное внимание автора. Рорер отмечает, что остроумие часто заключается в неожиданном отклонении от паттерна, в то время как GPT «течет по руслу реки в долину».
Эффект Валуиджи (Waluigi Effect): Скарфе упомянул этот феномен, когда попытки настроить модель через RLHF (обучение с подкреплением на основе отзывов людей) могут привести к тому, что она внезапно регрессирует к нежелательной или дерзкой персоне.

⚙️ Анатомия трансформеров: гайки и болты 1:27:06

В финальной части Рорер демистифицирует архитектуру трансформеров. По его утверждению, это не магия, а набор хорошо определенных операций: скалярных произведений и матричных умножений.

Механизм работы трансформера в упрощенном изложении Рорера:

Это процесс «голосования». Если мы видим текущее слово и контекст из предыдущих тысяч слов, коллекция внутренних моделей голосует за то, какое слово должно быть следующим.
Обучение происходит через минимизацию замешательства (энтропии). Если модель не ожидала увидеть слово, которое на самом деле последовало в тексте, она корректирует свои внутренние «ручки» (веса) через обратное распространение ошибки.
Ключевое достижение — сделать этот процесс дифференцируемым, чтобы малые изменения в начале приводили к малым изменениям в результате.

Статья подготовлена на основе материалов канала Machine Learning Street Talk. Брэндон Рорер продолжает развивать свою школу e2eml.school, где на данный момент обучается около 15 000 студентов.