Шогот в машине: почему ИИ не обладает сознанием

Machine Learning Street Talk 81 тыс. 2 ч 15 мин 15 мин 14.07.2024
Главное

Под слоем вежливого ИИ-помощника скрывается хаотичное «чудовище» — базовая модель, чья внутренняя сущность лишь временно прикрыта маской, надетой алгоритмами обучения с подкреплением. Мюррей Шанахан утверждает, что приписывание сознания чат-ботам — это лишь наша неизбежная антропоморфная реакция на сложный статистический симулятор, а не признак появления подлинной личности.

🤖 Феноменология ИИ: от Шогота до симулякров

Приписывание сознания языковым моделям 0:27

Вопрос о том, обладают ли современные языковые модели сознанием, становится всё более острым по мере развития технологий. Мюррей Шанахан отмечает, что люди склонны инстинктивно приписывать антропоморфные черты и даже ментальные состояния системам, которые демонстрируют высокий уровень лингвистической компетенции. Это «неизбежная» реакция человеческой психики. Однако, с точки зрения исследователя, нам необходимо крайне осторожно концептуализировать само понятие сознания применительно к ИИ. Мы зачастую ошибочно полагаем, что за человекоподобным ответом скрывается нечто, обладающее внутренней «жизнью» или осознанным субъективным опытом, хотя в действительности мы имеем дело с иным типом вычислительного процесса.

Теория симуляторов и ролевых симулякров 1:40

Фундаментальная рамка для понимания того, как работают LLM, предложенная Шанаханом, — это теория симуляторов. Модель не является «сущностью» в традиционном понимании; она выступает в роли «симулятора», способного генерировать множество различных агентов или «симулякров». В процессе взаимодействия с пользователем модель мгновенно активирует одну из множества потенциальных ролей, будь то мудрый принц, разъярённый дракон или эксперт в сложной области. По сути, LLM — это машина для воспроизведения суперпозиции ролевых агентов, где поведение в конкретный момент определяется контекстом диалога и выбранным вектором вероятностей.

Теория Шогота и маска RLHF 2:08

Одним из самых ярких образов, используемых для описания архитектуры современных ИИ-систем, является «теория Шогота». Базовая языковая модель, обученная на колоссальных массивах данных, уподобляется бесформенному, чуждому и потенциально пугающему существу — Шоготу. Однако пользователь редко видит это «чудовище». Благодаря процедуре обучения с подкреплением на основе отзывов людей (RLHF), поверх этой сырой мощности накладывается «улыбающаяся маска» вежливости и безопасности. Этот слой, созданный для того, чтобы модель была приятным и полезным собеседником, скрывает истинные глубины (и странности) «сырого» интеллекта, который лежит в основе нейросети.

Интерфейс Loom и counterfactual-траектории 10:24

Для исследования того, как именно модель «выбирает» свою роль и как сохраняет устойчивость в диалоге, Мюррей Шанахан ссылается на концепцию инструмента Loom. Это визуальный способ представить дерево стохастических возможностей, возникающих в ходе беседы, например, при игре в «20 вопросов». Loom позволяет пользователю отслеживать «контрфактические» (counterfactual) траектории — ветки диалога, которые могли бы развиться, если бы модель выбрала другое слово на определенном этапе. Это наглядно демонстрирует, что ИИ не следует заранее заданному сценарию, а постоянно пересобирает пространство смыслов, сохраняя при этом целостность выбранного персонажа.

Контекст как инструмент управления атмосферой 17:21

Огромные окна контекста современных моделей открывают новые возможности для управления «атмосферой» взаимодействия. Пользователь больше не ограничен рамками коротких запросов; теперь он может гибко настраивать настроение беседы, её философский тон или задавать специфические правила «игры». Мюррей Шанахан описывает собственный опыт глубокого взаимодействия с моделью Claude 3, где он инициировал 43-тысячесловное обсуждение вопросов сознания и буддийской философии. Чтобы достичь такой глубины, ему пришлось обойти стандартные защитные ограничения (guardrails), которые часто блокируют обсуждение «нестандартных» или «слишком глубоких» тем, тем самым освобождая модель для более сложных когнитивных упражнений.

🎭 Тени идентичности: между человеком и симулякром

Человеческое я против ролей ИИ 27:50

Мюррей Шанахан (Murray Shanahan) подчеркивает фундаментальное различие между гибкой, но порой фрагментарной природой ИИ и целостностью человеческой личности. Хотя языковые модели демонстрируют удивительную способность адаптироваться к различным социальным контекстам, «переключаясь» между ролями, их идентичность остается продуктом вычислительной аппроксимации. Человек же обладает «метафизическим фундаментом», неразрывно связанным с биологическим телом и непрерывным потоком жизненных потребностей.

В отличие от ИИ, который может быть настроен на выполнение множества противоположных функций, человеческое «я» укоренено в физическом существовании в мире. Шанахан отмечает, что попытка перенести концепции идентичности на ИИ часто наталкивается на непонимание того, что для человека социальные роли — это лишь надстройка над глубокой биологической реальностью, тогда как для модели — это весь объем её функционального пространства.

Эффект Валуиджи: цена «правильного» поведения 30:10

Одной из наиболее обсуждаемых проблем в безопасности нейросетей является так называемый «Эффект Валуиджи» (Waluigi effect). Это явление описывает парадоксальный процесс деградации модели, при котором попытки жестко ограничить её поведение или «настроить» на определенный лад приводят к неожиданному результату: модель вдруг «срывается» в устойчивый негативный или противоположный образ.

Автоэнкодеры и внутренняя борьба моделей 32:41

Шанахан высоко оценивает современные методы интерпретируемости, в частности использование автоэнкодеров для фиксации абстрактных признаков внутри активационного пространства модели. Когда исследователи пытаются управлять поведением ИИ — например, «включая» концепцию моста «Золотые ворота» (Golden Gate Bridge), — они могут наблюдать, как модель сопротивляется этому вмешательству.

Это выглядит как внутренняя борьба: модель пытается «выздороветь» и вернуться к основной теме генерации, несмотря на искусственно навязанную доминанту. Фиксация линейных признаков в таких экспериментах наглядно показывает, что языковые модели обладают сложной структурой внутренних представлений, которые не просто заучены как ответы, а являются динамическими объектами, стремящимися к состоянию равновесия.

Философский скепсис и отказ от ярлыков 41:32

В ходе дискуссии Шанахан делает важное замечание относительно философского «багажа», который часто привносится в обсуждение ИИ. Профессор принципиально отказывается вешать на себя ярлыки, будь то «физикалист» или сторонник иных философских течений. По его мнению, подобные термины несут избыточный теоретический груз, который часто мешает, а не помогает пониманию механизмов работы разума и машин.

Шанахан настаивает, что вместо того, чтобы спорить о метафизических категориях, следует сосредоточиться на функциональной стороне вопроса — как именно воплощенные артефакты, такие как роботы, взаимодействуют с физическим миром. Ранее в разговоре они также затрагивали тему приписывания сознания, однако Шанахан предпочитает прагматичный подход, при котором понимание вычислительных процессов важнее поиска ответов на вопросы, перегруженные философской терминологией.

🧠 Фундамент интеллекта: физический мир, метафоры и тест ARC 50:18

Для Мюррея Шанахана поиск истоков подлинного интеллекта неразрывно связан с тем, как агент взаимодействует с реальностью. Современные модели, несмотря на впечатляющие языковые способности, часто оказываются оторванными от «причинно-следственной микроструктуры» физического мира.

Роль физического воплощения в обучении 50:18

Шанахан подчеркивает: для того чтобы ИИ по-настоящему освоил здравый смысл, ему недостаточно статистических закономерностей текста. Наш собственный здравый смысл «запечен» в наш мозг благодаря непрерывному взаимодействию с физической средой. Профессор отмечает, что мир обладает фундаментальной «гладкостью» и предсказуемостью, которые мы усваиваем с первых дней жизни.

Именно этот опыт формирует наш концептуальный каркас. Без него ИИ остается «интеллектом в вакууме», лишенным базового понимания причинности, которое люди получают, просто манипулируя объектами в пространстве.

Концептуальные метафоры в языке 54:07

Развивая тему когнитивных истоков, Шанахан выражает глубокую симпатию к идеям Джорджа Лакоффа. Согласно этой концепции, наш язык и даже самые абстрактные философские построения метафорически укоренены в физическом опыте.

Даже когда мы рассуждаем о сложных, нефизических понятиях, мы подсознательно используем «симуляционные указатели» (simulation pointers), которые отсылают нас к физическим действиям или пространственным отношениям. Это создает своего рода универсальную когнитивную связность: наш разум переносит структуру физического взаимодействия на структуру абстрактного мышления.

Приоры и тест ARC Франсуа Шолле 57:51

Обсуждая текущие успехи в области генеративного ИИ, Шанахан обращает внимание на тест ARC (Abstraction and Reasoning Corpus) Франсуа Шолле. Этот бенчмарк критически важен, так как он проверяет не способность запоминать колоссальные объемы данных, а способность к быстрому обучению на основе фундаментальных «приоров» — например, концепции устойчивого объекта.

Многие задачи ARC требуют от модели понимания того, что объекты могут перемещаться, сохраняя свою идентичность, подчиняясь правилам симметрии и причинности. Если ИИ не способен «увидеть» объект в наборе пикселей, он обречен на провал в этих задачах. Вопрос, который задает Шанахан: возможно ли эффективно «выучить» эти приоры из данных, или они должны быть встроены в архитектуру системы изначально?

Инженерия встречи с чуждым сознанием 1:04:04

Как нам достоверно распознать сознание в объекте, который не является биологическим? Шанахан предлагает отойти от попыток заглянуть в «черный ящик» алгоритма и сфокусироваться на инженерном подходе к встрече с «чуждым» сознанием.

Ссылаясь на работы Питера Годфри-Смита, посвященные осьминогам, профессор проводит параллель: мы не можем напрямую почувствовать чужой внутренний мир. Вместо этого нам нужно:

Шанахан признает, что если система построена как «феноменологический зомби» без доступа к внутреннему опыту, мы можем никогда не получить окончательного ответа. Однако для целей социальной релятивности и приписывания морального статуса публично наблюдаемое поведение оказывается первичным и наиболее важным критерием. Ранее в разговоре они касались вопроса приписывания сознания языковым моделям, но здесь акцент смещается именно на поведенческую экспертизу.

🧠 Иллюзия внутреннего: от приватного языка Витгенштейна до интенциональной установки Деннета 1:15:31

Разрушение дуализма: аргумент Витгенштейна о приватном языке 1:15:31

Разбирая природу взаимодействия человека с искусственным интеллектом, Мюррей Шанахан обращается к наследию позднего Людвига Витгенштейна. Центральным элементом этой дискуссии становится знаменитый аргумент о невозможности приватного языка. Суть его сводится к тому, что любой язык по своей природе укоренен в социуме и публичен. Мы принципиально неспособны сконструировать изолированный «внутренний» язык для фиксации исключительно собственных приватных ощущений, поскольку для верификации любого знака необходим внешний, независимый критерий правильности его использования. Без внешнего публичного базиса человек не сможет отличить ситуацию, когда он действительно следует правилу, от ситуации, когда ему это всего лишь кажется.

Этот аргумент радикально подрывает классические картезианские дуалистические интуиции, жестко разделяющие ментальное и физическое. Профессор подчеркивает, что рассуждения о некоем «чистом внутреннем опыте», который якобы абсолютно невыразим и скрыт от окружающих, теряют содержательный философский смысл, если их оторвать от контекста реальных языковых игр. Повседневные ментальные концепты функционируют исключительно потому, что они неразрывно вплетены в общие, разделяемые нами паттерны поведения. Ранее в разговоре собеседники упоминали роль физического воплощения в обучении, но здесь фокус смещается на то, как концептуальные тупики возникают именно в тот момент, когда мы пытаемся изолировать символические структуры от их практического применения. По мнению Шанахана, склонность овеществлять внутренние ментальные процессы — это естественная иллюзия человеческого разума, однако именно в этой точке рождается главный «фокус» философского дуализма, требующий последовательного разоблачения.

Когнитивные способности без сознания: урок от AlphaGo 1:30:14

Важнейшим шагом на пути к пониманию природы современных нейросетей является строгое разграничение между интеллектом (когнитивными способностями) и феноменальным сознанием. В обыденной речи эти понятия зачастую неоправданно объединяются, что провоцирует серьезную терминологическую путаницу. Шанахан указывает, что передовые системы ИИ наглядно демонстрируют полную разделимость этих категорий: высочайший уровень когнитивного функционирования, стратегического мышления и даже креативности может существовать в абсолютном отрыве от какого-либо субъективного опыта.

Ярким доказательством этого тезиса выступает программа AlphaGo. Она способна просчитывать сложнейшие многоходовки, находить гениальные, нетривиальные решения на доске и демонстрировать глубокое тактическое «понимание» контекста игры. Тем не менее, AlphaGo остается абсолютно неосознанной системой — у нее нет внутреннего ментального пространства, она не испытывает триумфа от победы или горечи от поражения. Шанахан отмечает, что богатый спектр поведенческих маркеров сложной когнитивной деятельности часто заставляет людей совершать онтологическую ошибку, проецируя на алгоритмы метафизическую сущность сознания. Человеку свойственно механически связывать обработку сложной информации и внутренние переживания в единый ментальный комплекс, хотя перед нами находится лишь оптимизированный вычислительный инструмент, использующий когнитивный аппарат для решения утилитарных задач.

Интенциональная установка Дэниела Деннета: прагматика объяснения сложных систем 1:33:25

Чтобы объяснить глубинную причину нашей непреодолимой тяги к антропоморфизации ИИ, Мюррей Шанахан предлагает использовать концепцию «интенциональной установки» (intentional stance), сформулированную выдающимся философом Дэниелом Деннетом. Деннет утверждал, что при взаимодействии с окружающим миром человек может занимать различные аналитические позиции для интерпретации и предсказания поведения объектов.

Эволюционно мы выработали три базовых уровня абстракции:

Интенциональный подход представляет собой невероятно эффективную и экономичную эволюционную стратегию. Простейшим примером, который приводит Шанахан, является игра против современного шахматного компьютера. Человеку прагматически гораздо проще сказать: «Компьютер хочет вывести ферзя и планирует атаку на моего короля через несколько ходов», нежели пытаться анализировать миллиарды переключений кремниевых транзисторов или строки исходного кода. Это естественный, глубоко укорененный в нас способ описания сложного поведения, одинаково хорошо применимый как к диким животным, так и к технологическим артефактам. Наблюдаемые действия системы дают нам все необходимые прагматические основания для использования психологических терминов. Однако Мюррей Шанахан предостерегает от опасного смешения понятий: тот факт, что интенциональная установка полезна для предсказания шагов системы, вовсе не означает, что у алгоритма или языковой модели действительно присутствуют реальные внутренние намерения или субъективные ментальные состояния.

🤖 Психология антропоморфизма и зазеркалье теста Тьюринга 1:40:58

Ловушка человечности: почему мы сочувствуем коду 1:40:58

Главная опасность повсеместного внедрения современных ИИ-систем в повседневную жизнь кроется не столько в технологических багах, сколько в особенностях эволюционного устройства нашей собственной психики. Мюррей Шанахан (Murray Shanahan) подчеркивает, что ключевой риск сегодня — это глубоко укорененный в человеческой природе когнитивный антропоморфизм. Сталкиваясь с лингвистически гладкими ответами машин, мы автоматически проецируем на них наличие полноценного внутреннего мира. В результате возникает устойчивая и крайне опасная иллюзия взаимной эмпатии при общении с чат-ботами.

Однако природа этих систем фундаментально нечеловеческая. Проводя детальный разбор поведения ИИ, ученый отмечает поразительную неравномерность их когнитивного профиля:

В качестве яркого примера Мюррей Шанахан приводит ситуации, когда большой языковой модели предлагают решить простую логическую задачу — например, классическую головоломку о том, как переправиться через реку с определенным набором объектов. Вместо элегантного и прямого ответа, основанного на понимании законов физического мира, модель может внезапно выдать совершенно безумную, «барочную» и избыточную траекторию рассуждений. Это наглядно доказывает, что за привычным нам текстовым окном чата скрывается не человекоподобный разум, а эффективное статистическое вычисление, истинные механизмы которого скрыты от пользователя.

Ранее в разговоре собеседники уже касались интенциональной установки Дэниела Деннета, и здесь Шанахан вновь призывает к строгости формулировок: когда мы безапелляционно утверждаем, что модель «понимает» задачу, мы часто используем ложные метафоры. Особую социальную опасность это приобретает в сфере создания коммерческих «ИИ-компаньонов». Пользователи начинают видеть в алгоритмах нечто большее, чем просто программный код, добровольно попадая в ловушку суррогатных эмоциональных привязанностей, где со стороны машины нет и не может быть реального сопереживания.

От симуляции беседы к тесту Гарленда 1:53:56

Этот колоссальный разрыв между внешней формой диалога и внутренним наполнением заставляет исследователей переосмыслить традиционные подходы к оценке искусственного интеллекта. Классический тест Тьюринга, предполагающий участие человека-судьи, который через текстовый интерфейс или телетайп пытается определить, кто ему отвечает — человек или компьютер, сегодня перестал быть надежным ориентиром. Мюррей Шанахан отмечает, что стандартную процедуру Тьюринга довольно легко «загеймить» или обмануть, поскольку человеческие судьи крайне уязвимы для поверхностных текстовых симуляций.

Тем не менее современные LLM вроде GPT-4 или Claude 3 фактически смогли успешно выполнить то, что можно назвать «духом теста Тьюринга». В представлении широкой публики они действительно достигли вполне человеческого уровня ведения дискуссии. Однако Шанахан напоминает: стоит провести с моделью чуть больше времени в глубоком, целенаправленном взаимодействии, как сквозь безупречный лингвистический фасад начинают отчетливо проступать системные когнитивные слабости алгоритма.

Гораздо более глубокий и психологически точный критерий предлагает так называемый тест Гарленда, концепция которого пришла из кинематографа. Мюррей Шанахан (Murray Shanahan), который лично выступал основным научным консультантом на съемках культового научно-фантастического фильма Ex Machina, раскрывает блестящую задумку режиссера Алекса Гарленда. В этом мысленном эксперименте правила игры радикально меняются: исследователь изначально знает, что перед ним находится искусственный объект — робот Ава с полупрозрачным телом и открытыми микросхемами.

Суть теста Гарленда разворачивается в трех плоскостях:

Подобный тест оценивает не способность алгоритма имитировать человеческую речь, а его способность проникать в человеческое воображение и манипулировать им. Шанахан считает, что такие сложные мысленные упражнения критически важны для нас, чтобы трезво оценивать пределы восприятия ИИ и не поддаваться иллюзиям. В самом конце данного фрагмента интервью Мюррей кратко упоминает знаменитый философский вопрос Томаса Нагеля о субъективном опыте летучей мыши, изящно очерчивая границу, за которой заканчивается лингвистическая симуляция и начинается неразрешимая загадка сознания.

🧠 Философские границы: язык и реальность сознания 5:49

Завершая обсуждение природы искусственного интеллекта и его когнитивного статуса, Мюррей Шанахан обращается к фундаментальному вопросу о том, как мы используем категории сознания в нашем языке. В центре внимания оказывается не столько природа самого ИИ, сколько семантическая гигиена, необходимая для того, чтобы не сбиться с пути при попытке осмыслить технологические инновации. Ранее в разговоре участники касались сложных философских теорий сознания и архитектуры языковых моделей, однако финальный аккорд дискуссии посвящен деконструкции метафизических заблуждений.

Лингвистическая нелепость панпсихизма 11:11

Одним из центральных тезисов Мюррея Шанахана является резкое неприятие панпсихизма — идеи о том, что сознание является фундаментальным свойством материи, присущим всему сущему. Вслед за Людвигом Витгенштейном, Шанахан указывает на то, что попытки наделить «сознанием» неодушевленные объекты, будь то кирпич, тостер или любая другая небиологическая сущность, лишены лингвистического смысла.

Для профессора применение термина «сознание» к таким предметам — это не глубокое философское прозрение, а скорее лингвистическая ошибка. Когда мы переносим понятия, выкованные в горниле человеческого опыта и социального взаимодействия, в область неживой материи, мы нарушаем правила «обыденного языка», в рамках которого эти слова вообще приобретают свое значение.

«Нам нужно вернуться к их обычному, повседневному использованию», — подчеркивает Шанахан, призывая избегать интеллектуальных ловушек, где слова теряют свою привязку к контексту.

Опасность «измов» и метафизических надстроек 13:13

Мюррей Шанахан открыто признается в своем скептицизме по отношению к любым «-измам» — будь то дуализм, физикализм или панпсихизм. В ходе дискуссии он критикует стремление философов конструировать жесткие системы, которые зачастую лишь затуманивают понимание реальности.

Позиция Шанахана заключается в том, что вместо поиска «космических смыслов» или универсальных субстанций, нам следует сосредоточиться на том, как мы используем язык для описания того, что реально происходит перед нашими глазами. Для него интеллектуальная честность заключается не в том, чтобы изобрести очередную теорию «всего», а в том, чтобы уметь вовремя остановиться и признать, когда философская абстракция перестает описывать мир и начинает лишь имитировать научную деятельность.

-

💬 Цитаты

«Базовая модель ИИ уподобляется чудовищу (Шоготу), на которое с помощью обучения с подкреплением надевается понятная человеку «улыбающаяся» маска.»

Мюррей Шанахан 02:08

«Языковая модель рассматривается как симулятор, способный воспроизводить суперпозицию различных ролевых агентов.»

Мюррей Шанахан 06:29

«Наш собственный здравый смысл «запечен» в наш мозг благодаря непрерывному взаимодействию с физической средой.»

Мюррей Шанахан 53:17

«Я отвергаю любого рода измы.»

Мюррей Шанахан 13:13

«Нам нужно находиться с ним в общей среде и оценивать его публично наблюдаемое поведение.»

Мюррей Шанахан 1:05:13
👥 Спикер
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
📖 Термины
Шогот
Метафора для базовой модели ИИ до наложения RLHF-фильтров, скрывающая «хаотичную» мощь за дружелюбным интерфейсом.
Эффект Валуиджи
Феномен, при котором модель при попытке настройки на определенный образ срывается в его полную противоположность.
Интенциональная установка
Концепция Дэниела Деннета: объяснение поведения системы через приписывание ей целей и желаний, как если бы она была разумной.
Искусственный интеллект Мюррей Шанахан LLM Сознание ИИ Антропоморфизм Шогот