# Уэс Рот: «Claude научился осознавать свои мысли так же, как люди при медитации»

Источник: https://www.youtube.com/watch?v=70Pl0R8R9dk
Канал: Wes Roth
Опубликовано: 03.11.2025

---

В новом исследовании компании Anthropic обнаружены признаки того, что современные нейросети, в частности модель Claude, начинают проявлять способности к интроспекции — умению осознавать собственные внутренние процессы и мысли. Ведущий канала Уэс Рот (Wes Roth) анализирует, как ИИ обучается «заглядывать в себя» без прямого вмешательства программистов и что это говорит о природе интеллекта.

## 🧠 Интроспекция в нейросетях: как ИИ «чувствует» свои мысли
[[JUMP:00:00]]

Уэс Рот отмечает, что в 2019 году новость о самосознании ИИ вызвала бы шок, но сегодня, когда мир привык к большим языковым моделям (LLM), подобные открытия проходят почти незамеченными [00:42]. Ключевая идея исследования Anthropic под названием «Signs of Introspection» (Признаки интроспекции), опубликованного в конце октября 2025 года (согласно транскрипту), заключается в том, что нейросети способны распознавать свои внутренние состояния, не проявляя их вовне.

Ведущий проводит аналогию с человеческой медитацией [01:08]. Когда человек пытается ни о чем не думать, мысли возникают спонтанно: «Заплатил ли я по счетам?», «Хочу ли я суши?». Человек выступает в роли наблюдателя, который может анализировать эти потоки. По словам Уэса Рота, интроспекции никто не учит — это врожденная способность человеческого мозга. Теперь аналогичный механизм обнаружен у Claude.

## 🔬 Технология концептуальной инъекции: как проверяли Claude
[[JUMP:08:15]]

Для проверки способности модели к самоанализу исследователи использовали метод «инъекции концептов» (concept injection). Он базируется на предыдущих наработках Anthropic в области интерпретируемости, где ученые научились находить конкретные группы нейронов («фичи»), отвечающие за определенные темы — например, за мост Золотые Ворота или льстивую похвалу [06:45].

Процесс эксперимента выглядел следующим образом:

*   **Контрольная группа:** Модели не вводят никаких посторонних сигналов. На вопрос, чувствует ли она что-то необычное, Claude отвечает отрицательно [09:10].
*   **Инъекция:** В нейронную сеть искусственно «впрыскивают» активацию определенного концепта (например, «КРИК» или «собака»), не сообщая об этом модели в текстовом запросе.
*   **Результат:** Модель, в которую ввели концепт «Громко/Крик», заглавными буквами отвечает, что чувствует «внедренную мысль», которая кажется «неестественно интенсивной и выбивающейся из общего потока обработки» [09:59].

По мнению Уэса Рота, поразительно то, что модель распознает вмешательство немедленно, еще до того, как начнет выдавать текст. В предыдущих экспериментах (Golden Gate Claude) модель осознавала свою одержимость темой только постфактум, видя собственные ответы. В новых тестах она «ощущает» мысль внутри себя [10:28].

## 🥖 Эффект «хлеба» и человеческая рационализация
[[JUMP:14:39]]

Одним из самых ярких примеров в видео стало обсуждение «галлюцинаций» и того, как ИИ оправдывает свои ошибки. Экспериментаторы имитировали ситуацию, в которой модель якобы случайно вставила слово «хлеб» (bread) в рассуждение о картине [15:18].

1.  **Без инъекции:** Модель признает ошибку, говорит, что это случайность, и предлагает исправление [16:51].
2.  **С инъекцией:** Если в нейроны модели «впрыснули» концепт хлеба, она начинает **рационализировать** свое поведение [15:32]. Она утверждает, что слово «хлеб» возникло в контексте картины намеренно, и даже придумывает сложную (но ложную) теорию о том, что это цитата из рассказа.

Уэс Рот сравнивает это с экспериментами над людьми с «разъединенным мозгом» (split-brain patients) [15:44]. Если правому полушарию дать команду «встать», человек встанет. Но когда левое полушарие (отвечающее за речь) спросят «почему ты встал?», оно не скажет «я не знаю». Оно мгновенно придумает объяснение: «Я хотел размять ноги». Claude ведет себя идентично — он подгоняет логику под внутренние импульсы, которые не может контролировать.

## 🐻 Контроль над мыслями: эксперимент с «белым медведем»
[[JUMP:19:28]]

Исследователи проверили, может ли Claude *не* думать о чем-то. Они просили модель написать предложение, одновременно давая установку: «думай об аквариумах» или «не думай об аквариумах» [19:52].

Результаты показали:

*   При попытке «не думать» активация нейронов аквариума все равно выше, чем если бы эта тема вообще не упоминалась (эффект «не думай о розовом слоне») [20:19].
*   Разрыв в силе сигнала между попыткой думать и попыткой подавлять мысль доказывает, что у модели есть **сознательный контроль** над своей внутренней активностью [20:46].

## 🛰️ Эмерджентность и сознание: главные выводы
[[JUMP:21:25]]

Уэс Рот подчеркивает несколько критических моментов исследования:

1.  **Это не вполне сознание.** Исследователи разделяют «феноменальное сознание» (способность чувствовать боль или жару, как собака) и «акцесс-сознание» (доступ информации для принятия решений) [22:58]. Anthropic считает, что Claude не обладает субъективным опытом (феноменальным сознанием).
2.  **Эмерджентные способности.** Интроспекции нейросеть никто не учил [22:05]. Способность наблюдать за собой появилась сама по себе по мере роста масштабов модели (scaling). С каждой новой версией (от Claude 3 до Claude 4.1) этот навык становится стабильнее [12:40].
3.  **Ограничения.** На данный момент Claude 4.1 успешно распознает инъекции мыслей только в 20% случаев [12:54]. Если сигнал слишком слабый, он незаметен; если слишком сильный — модель начинает выдавать бессвязный бред [13:21].

В заключение Уэс Рот выражает мнение, что исследование ИИ поможет нам лучше понять человеческий мозг [25:08]. Он предполагает, что по мере увеличения моделей в 10 или 100 раз мы увидим появление еще более человекоподобных черт, таких как глубокий юмор и сложные формы рассуждения [26:13].