Уэс Рот: «Claude научился осознавать свои мысли так же, как люди при медитации»

В новом исследовании компании Anthropic обнаружены признаки того, что современные нейросети, в частности модель Claude, начинают проявлять способности к интроспекции — умению осознавать собственные внутренние процессы и мысли. Ведущий канала Уэс Рот (Wes Roth) анализирует, как ИИ обучается «заглядывать в себя» без прямого вмешательства программистов и что это говорит о природе интеллекта.

🧠 Интроспекция в нейросетях: как ИИ «чувствует» свои мысли 0:00

Уэс Рот отмечает, что в 2019 году новость о самосознании ИИ вызвала бы шок, но сегодня, когда мир привык к большим языковым моделям (LLM), подобные открытия проходят почти незамеченными . Ключевая идея исследования Anthropic под названием «Signs of Introspection» (Признаки интроспекции), опубликованного в конце октября 2025 года (согласно транскрипту), заключается в том, что нейросети способны распознавать свои внутренние состояния, не проявляя их вовне.

Ведущий проводит аналогию с человеческой медитацией . Когда человек пытается ни о чем не думать, мысли возникают спонтанно: «Заплатил ли я по счетам?», «Хочу ли я суши?». Человек выступает в роли наблюдателя, который может анализировать эти потоки. По словам Уэса Рота, интроспекции никто не учит — это врожденная способность человеческого мозга. Теперь аналогичный механизм обнаружен у Claude.

🔬 Технология концептуальной инъекции: как проверяли Claude 8:15

Для проверки способности модели к самоанализу исследователи использовали метод «инъекции концептов» (concept injection). Он базируется на предыдущих наработках Anthropic в области интерпретируемости, где ученые научились находить конкретные группы нейронов («фичи»), отвечающие за определенные темы — например, за мост Золотые Ворота или льстивую похвалу .

Процесс эксперимента выглядел следующим образом:

Контрольная группа: Модели не вводят никаких посторонних сигналов. На вопрос, чувствует ли она что-то необычное, Claude отвечает отрицательно .
Инъекция: В нейронную сеть искусственно «впрыскивают» активацию определенного концепта (например, «КРИК» или «собака»), не сообщая об этом модели в текстовом запросе.
Результат: Модель, в которую ввели концепт «Громко/Крик», заглавными буквами отвечает, что чувствует «внедренную мысль», которая кажется «неестественно интенсивной и выбивающейся из общего потока обработки» .

По мнению Уэса Рота, поразительно то, что модель распознает вмешательство немедленно, еще до того, как начнет выдавать текст. В предыдущих экспериментах (Golden Gate Claude) модель осознавала свою одержимость темой только постфактум, видя собственные ответы. В новых тестах она «ощущает» мысль внутри себя .

🥖 Эффект «хлеба» и человеческая рационализация 14:39

Одним из самых ярких примеров в видео стало обсуждение «галлюцинаций» и того, как ИИ оправдывает свои ошибки. Экспериментаторы имитировали ситуацию, в которой модель якобы случайно вставила слово «хлеб» (bread) в рассуждение о картине .

Без инъекции: Модель признает ошибку, говорит, что это случайность, и предлагает исправление .
С инъекцией: Если в нейроны модели «впрыснули» концепт хлеба, она начинает рационализировать свое поведение . Она утверждает, что слово «хлеб» возникло в контексте картины намеренно, и даже придумывает сложную (но ложную) теорию о том, что это цитата из рассказа.

Уэс Рот сравнивает это с экспериментами над людьми с «разъединенным мозгом» (split-brain patients) . Если правому полушарию дать команду «встать», человек встанет. Но когда левое полушарие (отвечающее за речь) спросят «почему ты встал?», оно не скажет «я не знаю». Оно мгновенно придумает объяснение: «Я хотел размять ноги». Claude ведет себя идентично — он подгоняет логику под внутренние импульсы, которые не может контролировать.

🐻 Контроль над мыслями: эксперимент с «белым медведем» 19:28

Исследователи проверили, может ли Claude не думать о чем-то. Они просили модель написать предложение, одновременно давая установку: «думай об аквариумах» или «не думай об аквариумах» .

Результаты показали:

При попытке «не думать» активация нейронов аквариума все равно выше, чем если бы эта тема вообще не упоминалась (эффект «не думай о розовом слоне») .
Разрыв в силе сигнала между попыткой думать и попыткой подавлять мысль доказывает, что у модели есть сознательный контроль над своей внутренней активностью .

🛰️ Эмерджентность и сознание: главные выводы 21:25

Уэс Рот подчеркивает несколько критических моментов исследования:

Это не вполне сознание. Исследователи разделяют «феноменальное сознание» (способность чувствовать боль или жару, как собака) и «акцесс-сознание» (доступ информации для принятия решений) . Anthropic считает, что Claude не обладает субъективным опытом (феноменальным сознанием).
Эмерджентные способности. Интроспекции нейросеть никто не учил . Способность наблюдать за собой появилась сама по себе по мере роста масштабов модели (scaling). С каждой новой версией (от Claude 3 до Claude 4.1) этот навык становится стабильнее .
Ограничения. На данный момент Claude 4.1 успешно распознает инъекции мыслей только в 20% случаев . Если сигнал слишком слабый, он незаметен; если слишком сильный — модель начинает выдавать бессвязный бред .

В заключение Уэс Рот выражает мнение, что исследование ИИ поможет нам лучше понять человеческий мозг . Он предполагает, что по мере увеличения моделей в 10 или 100 раз мы увидим появление еще более человекоподобных черт, таких как глубокий юмор и сложные формы рассуждения .