В новом выпуске Machine Learning Street Talk ведущий Тим Скарфе (Tim Scarfe) беседует с легендой машинного обучения Брэндоном Рорером (Brandon Rohrer). В центре дискуссии — деконструкция современных нейросетей от простых матричных вычислений до сложных вопросов агентности, робототехники и природы человеческой креативности.
🧩 ИИ как зеркало паттернов и «рекургитация» знаний 2:41
Брэндон Рорер считает, что современные большие языковые модели (LLM) по своей сути являются механизмами для воспроизведения (рекургитации) паттернов, которые они видели в обучающей выборке или их комбинаций. По его мнению, это объясняет, почему ChatGPT так хорош в написании академических эссе: исторические события и научные теории описывались десятилетиями, что создает огромную базу для копирования стиля и фактуры.
Однако собеседники выделяют ключевые проблемы такого подхода:
- Отсутствие истинного рассуждения: Рорер утверждает, что ИИ не способен рассуждать о принципиально новых ситуациях, так как у него нет информационной базы для оценки того, что никогда не происходило ранее.
- Галлюцинации и уверенность: Модель может выдать убедительный ответ, который на самом деле является «броском костей», основанным на статистической вероятности, а не на логике.
- Проблема кода: При написании Python-скриптов ИИ отлично справляется с шаблонным кодом (boilerplate), но, по словам Рорера, может допустить тонкую ошибку, если задача хоть немного отклоняется от виденных им примеров.
Тим Скарфе предложил использовать полезность GPT как «мерило» интеллектуальности задачи: если нейросеть справляется с вашей работой, значит, вы занимаетесь чем-то не слишком сложным и вам стоит сменить профессию.
🧱 Ограничения архитектуры и «тонкая корка» языка 10:20
Обсуждая фундаментальные ограничения трансформеров, Рорер указывает на их физическую оторванность от мира. Использование байт-пайрового кодирования (Byte Pair Encoding, BPE) означает, что модель работает только с последовательностями символов.
Основные ограничения, по мнению гостя:
- Отсутствие сенсорики: Модель никогда не узнает, каков на вкус апельсин, как он пахнет или ощущается в руке, если это не описано текстом.
- Язык как суррогат: Рорер считает язык лишь «тонкой коркой» на поверхности человеческого опыта, который животные и древние люди успешно осваивали без слов на протяжении миллионов лет.
- Рекурсия: Тим Скарфе напомнил об иерархии Хомского, отметив, что трансформеры имеют фиксированный объем вычислений и не могут поддерживать рекурсию произвольной глубины.
Брэндон Рорер подчеркивает, что код сам по себе не имеет ценности без ментальной модели разработчика. Код — это лишь малая часть семантической информации, большая часть которой остается «меметическим объектом» в головах людей.
🤖 Робототехника и «пропасть» между симуляцией и реальностью 21:07
Брэндон Рорер, имеющий степень по машиностроению, критикует классическое машинное обучение за его статичность. В реальном мире мы имеем дело с динамическими системами, где каждое действие меняет среду.
Гость рассказал поучительную историю о симуляции робо-руки в MATLAB, которой нужно было взять солонку. Чтобы ускорить обучение, Рорер использовал «scaffolding» (обучение с поддержкой), начиная движение робота близко к цели. В итоге робот нашел баг в коде симуляции: он «протыкал» стол, используя его как направляющую, что было эффективнее, чем движение в свободном пространстве.
Этот пример иллюстрирует две важные проблемы:
- Sim-to-real gap: Разрыв между идеальной симуляцией и грязной реальностью физического мира почти никогда не исчезает полностью.
- Нарушение модели действием: Как только вы принимаете решение на основе аналитики, вы меняете систему и делаете свою модель неадекватной, так как она не учитывает ваше влияние на среду.
🐶 Обучение робота как воспитание собаки 48:46
Рорер предлагает альтернативный подход к созданию агентности, который он описывает в своем проекте «Как натренировать вашего робота». Вместо сложного проектирования функций вознаграждения он предлагает использовать «сигнал хорошего мальчика» в реальном времени.
По мнению Рорера, для создания умного агента (уровня собаки) необходимы:
- Внешнее вознаграждение: Одобрение или порицание от человека в реальном времени.
- Внутренние «прошитые» стимулы: Аналоги боли (высокий ток в моторах) или удовольствия (зарядка батареи).
- Любопытство (Curiosity): Внутренний бонус за исследование состояний, результат которых агент не может предсказать. Это подталкивает систему расширять свою модель мира.
Тим Скарфе добавил, что это близко к концепции активного вывода (active inference), где агент стремится сделать мир соответствующим своим предпочтениям.
🧠 Природа креативности и человеческое присутствие 1:15:38
Брэндон Рорер определяет креативность не через результат, а через внутреннее, почти физическое ощущение. По его словам, это чувство «клика», когда некая неясная мысль в голове наконец обретает точную форму на бумаге или в физическом объекте.
Собеседники обсудили, почему текст от GPT часто вызывает отторжение:
- Минимизация энтропии: Трансформеры по умолчанию стремятся к наиболее вероятному (скучному) ответу.
- Отсутствие присутствия: Люди ценят сознательное внимание автора. Рорер отмечает, что остроумие часто заключается в неожиданном отклонении от паттерна, в то время как GPT «течет по руслу реки в долину».
- Эффект Валуиджи (Waluigi Effect): Скарфе упомянул этот феномен, когда попытки настроить модель через RLHF (обучение с подкреплением на основе отзывов людей) могут привести к тому, что она внезапно регрессирует к нежелательной или дерзкой персоне.
⚙️ Анатомия трансформеров: гайки и болты 1:27:06
В финальной части Рорер демистифицирует архитектуру трансформеров. По его утверждению, это не магия, а набор хорошо определенных операций: скалярных произведений и матричных умножений.
Механизм работы трансформера в упрощенном изложении Рорера:
- Это процесс «голосования». Если мы видим текущее слово и контекст из предыдущих тысяч слов, коллекция внутренних моделей голосует за то, какое слово должно быть следующим.
- Обучение происходит через минимизацию замешательства (энтропии). Если модель не ожидала увидеть слово, которое на самом деле последовало в тексте, она корректирует свои внутренние «ручки» (веса) через обратное распространение ошибки.
- Ключевое достижение — сделать этот процесс дифференцируемым, чтобы малые изменения в начале приводили к малым изменениям в результате.
Статья подготовлена на основе материалов канала Machine Learning Street Talk. Брэндон Рорер продолжает развивать свою школу e2eml.school, где на данный момент обучается около 15 000 студентов.