Новое исследование специалистов из Калифорнийского университета в Беркли описывает метод обучения больших языковых моделей (LLM), который кажется контринтуитивным: ИИ может улучшать свои навыки рассуждения, опираясь исключительно на собственное «чувство уверенности». Этот подход, получивший название Intuititor, позволяет моделям совершенствоваться без внешних наград, экспертной разметки или заранее известных правильных ответов.
🤖 Проблема внешней оценки и «виртуальные пятёрки» 0:00
Традиционно обучение моделей с подкреплением (Reinforcement Learning, RL) привязано к точности выполнения конкретных тестов или достижению внешних целей . Как отмечает автор канала Уэс Рот, если мы хотим, чтобы модель хорошо писала код, её оценивают по качеству выполнения задач по программированию: в случае успеха система получает «виртуальную пятёрку» — положительный сигнал, подтверждающий правильность её действий .
Однако у такого подхода есть существенные ограничения:
- Дороговизна: создание качественных наборов данных с проверяемыми наградами (verifiable rewards) требует огромных ресурсов.
- Узкая специализация: награды часто привязаны к конкретной области (например, математике или коду), что ограничивает гибкость обучения .
- Сложность верификации: для обучения робота уборке комнаты нужно физически или программно проверить, стал ли пол чище, что не всегда легко масштабируется .
🧠 Метод Intuititor: уверенность как мера истины 1:05
Исследователи из Беркли задались вопросом: что если в качестве единственного сигнала вознаграждения использовать «самоуверенность» модели в своих ответах? . На первый взгляд это может показаться попыткой создать «вечный двигатель» в мире ИИ, однако, по словам Уэса Рота, методика демонстрирует реальные результаты .
Основная логика метода строится на наблюдении, что языковые модели проявляют меньшую уверенность при решении трудных задач . Как и человек, ИИ чаще ошибается там, где он «колеблется» между вариантами. В рамках Intuititor уверенность измеряется через дивергенцию Кульбака — Лейблера (KL divergence) между распределением выходных данных модели и равномерным распределением .
Для наглядности Рот приводит аналогию с опросом прохожих в незнакомом городе :
- Если вы спросите дорогу у одного человека, он может ошибиться.
- Если вы спросите 100 человек и 80 из них укажут один и тот же путь, ваша уверенность в правильности маршрута возрастет.
- Если же ответы распределятся хаотично (каждый говорит разное), это явный признак того, что вопрос сложен или ответ неочевиден .
Именно повторяемость одного и того же ответа при множественных генерациях система воспринимает как сигнал высокой уверенности и, следовательно, высокого качества ответа .
📈 Сравнение с DeepSeek и впечатляющие результаты 4:21
В качестве контрольного эксперимента авторы использовали алгоритм gRPO (Group Relative Policy Optimization) — технологический прорыв компании DeepSeek, позволивший тренировать модели с меньшими вычислительными затратами .
Результаты тестирования на базе модели Qwen 2.5-3b показали следующее:
- Метод Intuititor сравнялся по эффективности с gRPO, при этом ИИ не предоставляли «золотых ответов» (эталонных решений, проверенных людьми) .
- При обучении на математических задачах модель продемонстрировала прирост производительности на 76% .
- Самое важное, по мнению Рота, — это сильные способности к обобщению (generalization) . Модель не просто зазубривала ответы, а улучшала навык решения совершенно новых, невиданных ранее задач.
🧪 Теория «скрытых знаний» и RLIF 6:35
Работа из Беркли дает новые доказательства теории о том, что предобученные модели обладают гораздо более богатыми «скрытыми знаниями» (latent behavior priors), чем считалось ранее . По версии, которую обсуждали исследователи из Anthropic в подкасте Дваркеша Пателя, обучение с подкреплением не добавляет модели абсолютно новые способности, а скорее «вытягивает» или оттачивает то, что уже было заложено на этапе предварительного обучения .
Новый подход получил аббревиатуру RLIF (Reinforcement Learning from Internal Feedback) — обучение с подкреплением на основе внутренней обратной связи . В отличие от RLHF (на основе человеческого фидбека) или RLVR (на основе проверяемых наград), RLIF полностью автономен .
Преимущества обобщения в рамках RLIF:
- Обучение на математике автоматически улучшает навыки написания кода и следования инструкциям (out-of-domain tasks) .
- Это напоминает человеческий интеллект: изучая структурированный подход к программированию, человек начинает лучше мыслить и в других сферах жизни .
- Метод способствует развитию структурированного мышления («цепочки мыслей» или chain of thought) .
🛡 Защита от «читерства» и будущее автономности 9:34
Одной из проблем обучения ИИ является «эксплуатация наград» (reward exploitation), когда модель пытается обмануть систему оценки . Например, при написании тестов для кода модель может попытаться создать тест, который всегда проходит успешно, чтобы получить награду без реальной проверки программы . Intuititor, опираясь на внутреннюю уверенность, а не на внешние метрики, кажется более устойчивым к подобным манипуляциям .
Перспективы технологии, по мнению Уэса Рота, выглядят захватывающе:
- Автономное приобретение навыков: агенты ИИ смогут обучаться в новых областях без участия человека .
- Масштабируемость: процесс не ограничен скоростью работы людей-разметчиков или наличием идеальных данных .
- Преодоление человеческого порога: ИИ сможет продолжать самосовершенствование даже тогда, когда задачи станут слишком сложными для контроля со стороны людей .
Уэс Рот считает, что интеграция этого метода с другими способами обучения позволит создавать более надежные и по-настоящему автономные системы, способные решать сложнейшие задачи реального мира .