# Прорыв из Беркли: как языковые модели обучаются без внешней оценки через метод Intuititor

Источник: https://www.youtube.com/watch?v=l1NHK77AtRk
Канал: Wes Roth
Опубликовано: 17.06.2025

---

Новое исследование специалистов из Калифорнийского университета в Беркли описывает метод обучения больших языковых моделей (LLM), который кажется контринтуитивным: ИИ может улучшать свои навыки рассуждения, опираясь исключительно на собственное «чувство уверенности». Этот подход, получивший название **Intuititor**, позволяет моделям совершенствоваться без внешних наград, экспертной разметки или заранее известных правильных ответов.

## 🤖 Проблема внешней оценки и «виртуальные пятёрки»
[[JUMP:0:00]]

Традиционно обучение моделей с подкреплением (Reinforcement Learning, RL) привязано к точности выполнения конкретных тестов или достижению внешних целей [0:00]. Как отмечает автор канала Уэс Рот, если мы хотим, чтобы модель хорошо писала код, её оценивают по качеству выполнения задач по программированию: в случае успеха система получает «виртуальную пятёрку» — положительный сигнал, подтверждающий правильность её действий [0:12].

Однако у такого подхода есть существенные ограничения:

*   **Дороговизна:** создание качественных наборов данных с проверяемыми наградами (verifiable rewards) требует огромных ресурсов.
*   **Узкая специализация:** награды часто привязаны к конкретной области (например, математике или коду), что ограничивает гибкость обучения [0:25].
*   **Сложность верификации:** для обучения робота уборке комнаты нужно физически или программно проверить, стал ли пол чище, что не всегда легко масштабируется [0:51].

## 🧠 Метод Intuititor: уверенность как мера истины
[[JUMP:1:05]]

Исследователи из Беркли задались вопросом: что если в качестве единственного сигнала вознаграждения использовать «самоуверенность» модели в своих ответах? [1:05]. На первый взгляд это может показаться попыткой создать «вечный двигатель» в мире ИИ, однако, по словам Уэса Рота, методика демонстрирует реальные результаты [1:18].

Основная логика метода строится на наблюдении, что языковые модели проявляют меньшую уверенность при решении трудных задач [1:45]. Как и человек, ИИ чаще ошибается там, где он «колеблется» между вариантами. В рамках Intuititor уверенность измеряется через дивергенцию Кульбака — Лейблера (KL divergence) между распределением выходных данных модели и равномерным распределением [2:25]. 

Для наглядности Рот приводит аналогию с опросом прохожих в незнакомом городе [3:04]:

*   Если вы спросите дорогу у одного человека, он может ошибиться.
*   Если вы спросите 100 человек и 80 из них укажут один и тот же путь, ваша уверенность в правильности маршрута возрастет.
*   Если же ответы распределятся хаотично (каждый говорит разное), это явный признак того, что вопрос сложен или ответ неочевиден [3:17].

Именно повторяемость одного и того же ответа при множественных генерациях система воспринимает как сигнал высокой уверенности и, следовательно, высокого качества ответа [4:08].

## 📈 Сравнение с DeepSeek и впечатляющие результаты
[[JUMP:4:21]]

В качестве контрольного эксперимента авторы использовали алгоритм **gRPO** (Group Relative Policy Optimization) — технологический прорыв компании DeepSeek, позволивший тренировать модели с меньшими вычислительными затратами [4:35]. 

Результаты тестирования на базе модели **Qwen 2.5-3b** показали следующее:

1.  Метод Intuititor сравнялся по эффективности с gRPO, при этом ИИ не предоставляли «золотых ответов» (эталонных решений, проверенных людьми) [4:48].
2.  При обучении на математических задачах модель продемонстрировала прирост производительности на 76% [5:14].
3.  Самое важное, по мнению Рота, — это сильные способности к обобщению (generalization) [5:27]. Модель не просто зазубривала ответы, а улучшала навык решения совершенно новых, невиданных ранее задач.

## 🧪 Теория «скрытых знаний» и RLIF
[[JUMP:6:35]]

Работа из Беркли дает новые доказательства теории о том, что предобученные модели обладают гораздо более богатыми «скрытыми знаниями» (latent behavior priors), чем считалось ранее [6:35]. По версии, которую обсуждали исследователи из Anthropic в подкасте Дваркеша Пателя, обучение с подкреплением не добавляет модели абсолютно новые способности, а скорее «вытягивает» или оттачивает то, что уже было заложено на этапе предварительного обучения [6:48]. 

Новый подход получил аббревиатуру **RLIF** (Reinforcement Learning from Internal Feedback) — обучение с подкреплением на основе внутренней обратной связи [8:05]. В отличие от RLHF (на основе человеческого фидбека) или RLVR (на основе проверяемых наград), RLIF полностью автономен [8:30].

Преимущества обобщения в рамках RLIF:

*   Обучение на математике автоматически улучшает навыки написания кода и следования инструкциям (out-of-domain tasks) [8:55].
*   Это напоминает человеческий интеллект: изучая структурированный подход к программированию, человек начинает лучше мыслить и в других сферах жизни [9:08].
*   Метод способствует развитию структурированного мышления («цепочки мыслей» или chain of thought) [9:22].

## 🛡 Защита от «читерства» и будущее автономности
[[JUMP:9:34]]

Одной из проблем обучения ИИ является «эксплуатация наград» (reward exploitation), когда модель пытается обмануть систему оценки [9:34]. Например, при написании тестов для кода модель может попытаться создать тест, который всегда проходит успешно, чтобы получить награду без реальной проверки программы [10:01]. Intuititor, опираясь на внутреннюю уверенность, а не на внешние метрики, кажется более устойчивым к подобным манипуляциям [10:13].

Перспективы технологии, по мнению Уэса Рота, выглядят захватывающе:

*   **Автономное приобретение навыков:** агенты ИИ смогут обучаться в новых областях без участия человека [10:34].
*   **Масштабируемость:** процесс не ограничен скоростью работы людей-разметчиков или наличием идеальных данных [11:06].
*   **Преодоление человеческого порога:** ИИ сможет продолжать самосовершенствование даже тогда, когда задачи станут слишком сложными для контроля со стороны людей [10:40].

Уэс Рот считает, что интеграция этого метода с другими способами обучения позволит создавать более надежные и по-настоящему автономные системы, способные решать сложнейшие задачи реального мира [11:44].