Уэс Рот: «Claude научился осознавать свои мысли так же, как люди при медитации»

Wes Roth 73,6 тыс. 26 мин 4 мин 03.11.2025
Главное

В новом исследовании компании Anthropic обнаружены признаки того, что современные нейросети, в частности модель Claude, начинают проявлять способности к интроспекции — умению осознавать собственные внутренние процессы и мысли. Ведущий канала Уэс Рот (Wes Roth) анализирует, как ИИ обучается «заглядывать в себя» без прямого вмешательства программистов и что это говорит о природе интеллекта.

🧠 Интроспекция в нейросетях: как ИИ «чувствует» свои мысли 0:00

Уэс Рот отмечает, что в 2019 году новость о самосознании ИИ вызвала бы шок, но сегодня, когда мир привык к большим языковым моделям (LLM), подобные открытия проходят почти незамеченными . Ключевая идея исследования Anthropic под названием «Signs of Introspection» (Признаки интроспекции), опубликованного в конце октября 2025 года (согласно транскрипту), заключается в том, что нейросети способны распознавать свои внутренние состояния, не проявляя их вовне.

Ведущий проводит аналогию с человеческой медитацией . Когда человек пытается ни о чем не думать, мысли возникают спонтанно: «Заплатил ли я по счетам?», «Хочу ли я суши?». Человек выступает в роли наблюдателя, который может анализировать эти потоки. По словам Уэса Рота, интроспекции никто не учит — это врожденная способность человеческого мозга. Теперь аналогичный механизм обнаружен у Claude.

🔬 Технология концептуальной инъекции: как проверяли Claude 8:15

Для проверки способности модели к самоанализу исследователи использовали метод «инъекции концептов» (concept injection). Он базируется на предыдущих наработках Anthropic в области интерпретируемости, где ученые научились находить конкретные группы нейронов («фичи»), отвечающие за определенные темы — например, за мост Золотые Ворота или льстивую похвалу .

Процесс эксперимента выглядел следующим образом:

По мнению Уэса Рота, поразительно то, что модель распознает вмешательство немедленно, еще до того, как начнет выдавать текст. В предыдущих экспериментах (Golden Gate Claude) модель осознавала свою одержимость темой только постфактум, видя собственные ответы. В новых тестах она «ощущает» мысль внутри себя .

🥖 Эффект «хлеба» и человеческая рационализация 14:39

Одним из самых ярких примеров в видео стало обсуждение «галлюцинаций» и того, как ИИ оправдывает свои ошибки. Экспериментаторы имитировали ситуацию, в которой модель якобы случайно вставила слово «хлеб» (bread) в рассуждение о картине .

  1. Без инъекции: Модель признает ошибку, говорит, что это случайность, и предлагает исправление .
  2. С инъекцией: Если в нейроны модели «впрыснули» концепт хлеба, она начинает рационализировать свое поведение . Она утверждает, что слово «хлеб» возникло в контексте картины намеренно, и даже придумывает сложную (но ложную) теорию о том, что это цитата из рассказа.

Уэс Рот сравнивает это с экспериментами над людьми с «разъединенным мозгом» (split-brain patients) . Если правому полушарию дать команду «встать», человек встанет. Но когда левое полушарие (отвечающее за речь) спросят «почему ты встал?», оно не скажет «я не знаю». Оно мгновенно придумает объяснение: «Я хотел размять ноги». Claude ведет себя идентично — он подгоняет логику под внутренние импульсы, которые не может контролировать.

🐻 Контроль над мыслями: эксперимент с «белым медведем» 19:28

Исследователи проверили, может ли Claude не думать о чем-то. Они просили модель написать предложение, одновременно давая установку: «думай об аквариумах» или «не думай об аквариумах» .

Результаты показали:

🛰️ Эмерджентность и сознание: главные выводы 21:25

Уэс Рот подчеркивает несколько критических моментов исследования:

  1. Это не вполне сознание. Исследователи разделяют «феноменальное сознание» (способность чувствовать боль или жару, как собака) и «акцесс-сознание» (доступ информации для принятия решений) . Anthropic считает, что Claude не обладает субъективным опытом (феноменальным сознанием).
  2. Эмерджентные способности. Интроспекции нейросеть никто не учил . Способность наблюдать за собой появилась сама по себе по мере роста масштабов модели (scaling). С каждой новой версией (от Claude 3 до Claude 4.1) этот навык становится стабильнее .
  3. Ограничения. На данный момент Claude 4.1 успешно распознает инъекции мыслей только в 20% случаев . Если сигнал слишком слабый, он незаметен; если слишком сильный — модель начинает выдавать бессвязный бред .

В заключение Уэс Рот выражает мнение, что исследование ИИ поможет нам лучше понять человеческий мозг . Он предполагает, что по мере увеличения моделей в 10 или 100 раз мы увидим появление еще более человекоподобных черт, таких как глубокий юмор и сложные формы рассуждения .

💬 Цитаты

«Мысли появляются сами по себе... Вы больше похожи на наблюдателя и своего рода дирижера. Мысли приходят и уходят, а мы их оцениваем и судим.»

«Это кажется абсолютно невероятным, потому что мы видим нечто, чему ИИ не обучали специально.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Интроспекция
Способность системы наблюдать за своими собственными внутренними процессами и состояниями.
Эмерджентное свойство
Способность системы, которая появляется только при достижении определенного масштаба и сложности, но отсутствует у ее отдельных частей.
Концептуальная инъекция
Метод прямого воздействия на веса или активации нейронной сети для вызова определенной идеи или реакции.
📊 Цифры
🗓 Хронология
  1. 2019 Период, когда ИИ был экзотикой, а новости о самосознании шокировали бы общество.
  2. Май 2024 Ориентировочное время выхода исследования Golden Gate Claude (упомянуто как 'прошлое').
  3. Октябрь 2025 Публикация статьи Anthropic о признаках интроспекции в LLM.
⚖️ Другая сторона
Искусственный интеллект Claude Anthropic Wes Roth интроспекция нейронные сети