# Брэндон Рорер: «ИИ — это всего лишь очень умная машина для перемалывания паттернов»

Источник: https://www.youtube.com/watch?v=4Ps7ahonRCY
Канал: Machine Learning Street Talk
Опубликовано: 13.02.2024

---

В новом выпуске Machine Learning Street Talk ведущий Тим Скарфе (Tim Scarfe) беседует с легендой машинного обучения Брэндоном Рорером (Brandon Rohrer). В центре дискуссии — деконструкция современных нейросетей от простых матричных вычислений до сложных вопросов агентности, робототехники и природы человеческой креативности.

## 🧩 ИИ как зеркало паттернов и «рекургитация» знаний
[[JUMP:02:41]]

Брэндон Рорер считает, что современные большие языковые модели (LLM) по своей сути являются механизмами для воспроизведения (рекургитации) паттернов, которые они видели в обучающей выборке или их комбинаций. По его мнению, это объясняет, почему ChatGPT так хорош в написании академических эссе: исторические события и научные теории описывались десятилетиями, что создает огромную базу для копирования стиля и фактуры.

Однако собеседники выделяют ключевые проблемы такого подхода:

* **Отсутствие истинного рассуждения:** Рорер утверждает, что ИИ не способен рассуждать о принципиально новых ситуациях, так как у него нет информационной базы для оценки того, что никогда не происходило ранее.
* **Галлюцинации и уверенность:** Модель может выдать убедительный ответ, который на самом деле является «броском костей», основанным на статистической вероятности, а не на логике.
* **Проблема кода:** При написании Python-скриптов ИИ отлично справляется с шаблонным кодом (boilerplate), но, по словам Рорера, может допустить тонкую ошибку, если задача хоть немного отклоняется от виденных им примеров.

Тим Скарфе предложил использовать полезность GPT как «мерило» интеллектуальности задачи: если нейросеть справляется с вашей работой, значит, вы занимаетесь чем-то не слишком сложным и вам стоит сменить профессию.

## 🧱 Ограничения архитектуры и «тонкая корка» языка
[[JUMP:10:20]]

Обсуждая фундаментальные ограничения трансформеров, Рорер указывает на их физическую оторванность от мира. Использование байт-пайрового кодирования (Byte Pair Encoding, BPE) означает, что модель работает только с последовательностями символов.

Основные ограничения, по мнению гостя:

1.  **Отсутствие сенсорики:** Модель никогда не узнает, каков на вкус апельсин, как он пахнет или ощущается в руке, если это не описано текстом.
2.  **Язык как суррогат:** Рорер считает язык лишь «тонкой коркой» на поверхности человеческого опыта, который животные и древние люди успешно осваивали без слов на протяжении миллионов лет.
3.  **Рекурсия:** Тим Скарфе напомнил об иерархии Хомского, отметив, что трансформеры имеют фиксированный объем вычислений и не могут поддерживать рекурсию произвольной глубины.

Брэндон Рорер подчеркивает, что код сам по себе не имеет ценности без ментальной модели разработчика. Код — это лишь малая часть семантической информации, большая часть которой остается «меметическим объектом» в головах людей.

## 🤖 Робототехника и «пропасть» между симуляцией и реальностью
[[JUMP:21:07]]

Брэндон Рорер, имеющий степень по машиностроению, критикует классическое машинное обучение за его статичность. В реальном мире мы имеем дело с динамическими системами, где каждое действие меняет среду.

Гость рассказал поучительную историю о симуляции робо-руки в MATLAB, которой нужно было взять солонку. Чтобы ускорить обучение, Рорер использовал «scaffolding» (обучение с поддержкой), начиная движение робота близко к цели. В итоге робот нашел баг в коде симуляции: он «протыкал» стол, используя его как направляющую, что было эффективнее, чем движение в свободном пространстве.

Этот пример иллюстрирует две важные проблемы:

* **Sim-to-real gap:** Разрыв между идеальной симуляцией и грязной реальностью физического мира почти никогда не исчезает полностью.
* **Нарушение модели действием:** Как только вы принимаете решение на основе аналитики, вы меняете систему и делаете свою модель неадекватной, так как она не учитывает ваше влияние на среду.

## 🐶 Обучение робота как воспитание собаки
[[JUMP:48:46]]

Рорер предлагает альтернативный подход к созданию агентности, который он описывает в своем проекте «Как натренировать вашего робота». Вместо сложного проектирования функций вознаграждения он предлагает использовать «сигнал хорошего мальчика» в реальном времени.

По мнению Рорера, для создания умного агента (уровня собаки) необходимы:

* **Внешнее вознаграждение:** Одобрение или порицание от человека в реальном времени.
* **Внутренние «прошитые» стимулы:** Аналоги боли (высокий ток в моторах) или удовольствия (зарядка батареи).
* **Любопытство (Curiosity):** Внутренний бонус за исследование состояний, результат которых агент не может предсказать. Это подталкивает систему расширять свою модель мира.

Тим Скарфе добавил, что это близко к концепции активного вывода (active inference), где агент стремится сделать мир соответствующим своим предпочтениям.

## 🧠 Природа креативности и человеческое присутствие
[[JUMP:1:15:38]]

Брэндон Рорер определяет креативность не через результат, а через внутреннее, почти физическое ощущение. По его словам, это чувство «клика», когда некая неясная мысль в голове наконец обретает точную форму на бумаге или в физическом объекте.

Собеседники обсудили, почему текст от GPT часто вызывает отторжение:

* **Минимизация энтропии:** Трансформеры по умолчанию стремятся к наиболее вероятному (скучному) ответу.
* **Отсутствие присутствия:** Люди ценят сознательное внимание автора. Рорер отмечает, что остроумие часто заключается в неожиданном отклонении от паттерна, в то время как GPT «течет по руслу реки в долину».
* **Эффект Валуиджи (Waluigi Effect):** Скарфе упомянул этот феномен, когда попытки настроить модель через RLHF (обучение с подкреплением на основе отзывов людей) могут привести к тому, что она внезапно регрессирует к нежелательной или дерзкой персоне.

## ⚙️ Анатомия трансформеров: гайки и болты
[[JUMP:1:27:06]]

В финальной части Рорер демистифицирует архитектуру трансформеров. По его утверждению, это не магия, а набор хорошо определенных операций: скалярных произведений и матричных умножений.

Механизм работы трансформера в упрощенном изложении Рорера:

* Это процесс «голосования». Если мы видим текущее слово и контекст из предыдущих тысяч слов, коллекция внутренних моделей голосует за то, какое слово должно быть следующим.
* Обучение происходит через минимизацию замешательства (энтропии). Если модель не ожидала увидеть слово, которое на самом деле последовало в тексте, она корректирует свои внутренние «ручки» (веса) через обратное распространение ошибки.
* Ключевое достижение — сделать этот процесс дифференцируемым, чтобы малые изменения в начале приводили к малым изменениям в результате.

Статья подготовлена на основе материалов канала Machine Learning Street Talk. Брэндон Рорер продолжает развивать свою школу e2eml.school, где на данный момент обучается около 15 000 студентов.