Прорыв из Беркли: как языковые модели обучаются без внешней оценки через метод Intuititor

Новое исследование специалистов из Калифорнийского университета в Беркли описывает метод обучения больших языковых моделей (LLM), который кажется контринтуитивным: ИИ может улучшать свои навыки рассуждения, опираясь исключительно на собственное «чувство уверенности». Этот подход, получивший название Intuititor, позволяет моделям совершенствоваться без внешних наград, экспертной разметки или заранее известных правильных ответов.

🤖 Проблема внешней оценки и «виртуальные пятёрки» 0:00

Традиционно обучение моделей с подкреплением (Reinforcement Learning, RL) привязано к точности выполнения конкретных тестов или достижению внешних целей . Как отмечает автор канала Уэс Рот, если мы хотим, чтобы модель хорошо писала код, её оценивают по качеству выполнения задач по программированию: в случае успеха система получает «виртуальную пятёрку» — положительный сигнал, подтверждающий правильность её действий .

Однако у такого подхода есть существенные ограничения:

Дороговизна: создание качественных наборов данных с проверяемыми наградами (verifiable rewards) требует огромных ресурсов.
Узкая специализация: награды часто привязаны к конкретной области (например, математике или коду), что ограничивает гибкость обучения .
Сложность верификации: для обучения робота уборке комнаты нужно физически или программно проверить, стал ли пол чище, что не всегда легко масштабируется .

🧠 Метод Intuititor: уверенность как мера истины 1:05

Исследователи из Беркли задались вопросом: что если в качестве единственного сигнала вознаграждения использовать «самоуверенность» модели в своих ответах? . На первый взгляд это может показаться попыткой создать «вечный двигатель» в мире ИИ, однако, по словам Уэса Рота, методика демонстрирует реальные результаты .

Основная логика метода строится на наблюдении, что языковые модели проявляют меньшую уверенность при решении трудных задач . Как и человек, ИИ чаще ошибается там, где он «колеблется» между вариантами. В рамках Intuititor уверенность измеряется через дивергенцию Кульбака — Лейблера (KL divergence) между распределением выходных данных модели и равномерным распределением .

Для наглядности Рот приводит аналогию с опросом прохожих в незнакомом городе :

Если вы спросите дорогу у одного человека, он может ошибиться.
Если вы спросите 100 человек и 80 из них укажут один и тот же путь, ваша уверенность в правильности маршрута возрастет.
Если же ответы распределятся хаотично (каждый говорит разное), это явный признак того, что вопрос сложен или ответ неочевиден .

Именно повторяемость одного и того же ответа при множественных генерациях система воспринимает как сигнал высокой уверенности и, следовательно, высокого качества ответа .

📈 Сравнение с DeepSeek и впечатляющие результаты 4:21

В качестве контрольного эксперимента авторы использовали алгоритм gRPO (Group Relative Policy Optimization) — технологический прорыв компании DeepSeek, позволивший тренировать модели с меньшими вычислительными затратами .

Результаты тестирования на базе модели Qwen 2.5-3b показали следующее:

Метод Intuititor сравнялся по эффективности с gRPO, при этом ИИ не предоставляли «золотых ответов» (эталонных решений, проверенных людьми) .
При обучении на математических задачах модель продемонстрировала прирост производительности на 76% .
Самое важное, по мнению Рота, — это сильные способности к обобщению (generalization) . Модель не просто зазубривала ответы, а улучшала навык решения совершенно новых, невиданных ранее задач.

🧪 Теория «скрытых знаний» и RLIF 6:35

Работа из Беркли дает новые доказательства теории о том, что предобученные модели обладают гораздо более богатыми «скрытыми знаниями» (latent behavior priors), чем считалось ранее . По версии, которую обсуждали исследователи из Anthropic в подкасте Дваркеша Пателя, обучение с подкреплением не добавляет модели абсолютно новые способности, а скорее «вытягивает» или оттачивает то, что уже было заложено на этапе предварительного обучения .

Новый подход получил аббревиатуру RLIF (Reinforcement Learning from Internal Feedback) — обучение с подкреплением на основе внутренней обратной связи . В отличие от RLHF (на основе человеческого фидбека) или RLVR (на основе проверяемых наград), RLIF полностью автономен .

Преимущества обобщения в рамках RLIF:

Обучение на математике автоматически улучшает навыки написания кода и следования инструкциям (out-of-domain tasks) .
Это напоминает человеческий интеллект: изучая структурированный подход к программированию, человек начинает лучше мыслить и в других сферах жизни .
Метод способствует развитию структурированного мышления («цепочки мыслей» или chain of thought) .

🛡 Защита от «читерства» и будущее автономности 9:34

Одной из проблем обучения ИИ является «эксплуатация наград» (reward exploitation), когда модель пытается обмануть систему оценки . Например, при написании тестов для кода модель может попытаться создать тест, который всегда проходит успешно, чтобы получить награду без реальной проверки программы . Intuititor, опираясь на внутреннюю уверенность, а не на внешние метрики, кажется более устойчивым к подобным манипуляциям .

Перспективы технологии, по мнению Уэса Рота, выглядят захватывающе:

Автономное приобретение навыков: агенты ИИ смогут обучаться в новых областях без участия человека .
Масштабируемость: процесс не ограничен скоростью работы людей-разметчиков или наличием идеальных данных .
Преодоление человеческого порога: ИИ сможет продолжать самосовершенствование даже тогда, когда задачи станут слишком сложными для контроля со стороны людей .

Уэс Рот считает, что интеграция этого метода с другими способами обучения позволит создавать более надежные и по-настоящему автономные системы, способные решать сложнейшие задачи реального мира .