Прорыв из Беркли: как языковые модели обучаются без внешней оценки через метод Intuititor

Wes Roth 42,6 тыс. 12 мин 4 мин 17.06.2025
Главное

Новое исследование специалистов из Калифорнийского университета в Беркли описывает метод обучения больших языковых моделей (LLM), который кажется контринтуитивным: ИИ может улучшать свои навыки рассуждения, опираясь исключительно на собственное «чувство уверенности». Этот подход, получивший название Intuititor, позволяет моделям совершенствоваться без внешних наград, экспертной разметки или заранее известных правильных ответов.

🤖 Проблема внешней оценки и «виртуальные пятёрки» 0:00

Традиционно обучение моделей с подкреплением (Reinforcement Learning, RL) привязано к точности выполнения конкретных тестов или достижению внешних целей . Как отмечает автор канала Уэс Рот, если мы хотим, чтобы модель хорошо писала код, её оценивают по качеству выполнения задач по программированию: в случае успеха система получает «виртуальную пятёрку» — положительный сигнал, подтверждающий правильность её действий .

Однако у такого подхода есть существенные ограничения:

🧠 Метод Intuititor: уверенность как мера истины 1:05

Исследователи из Беркли задались вопросом: что если в качестве единственного сигнала вознаграждения использовать «самоуверенность» модели в своих ответах? . На первый взгляд это может показаться попыткой создать «вечный двигатель» в мире ИИ, однако, по словам Уэса Рота, методика демонстрирует реальные результаты .

Основная логика метода строится на наблюдении, что языковые модели проявляют меньшую уверенность при решении трудных задач . Как и человек, ИИ чаще ошибается там, где он «колеблется» между вариантами. В рамках Intuititor уверенность измеряется через дивергенцию Кульбака — Лейблера (KL divergence) между распределением выходных данных модели и равномерным распределением .

Для наглядности Рот приводит аналогию с опросом прохожих в незнакомом городе :

Именно повторяемость одного и того же ответа при множественных генерациях система воспринимает как сигнал высокой уверенности и, следовательно, высокого качества ответа .

📈 Сравнение с DeepSeek и впечатляющие результаты 4:21

В качестве контрольного эксперимента авторы использовали алгоритм gRPO (Group Relative Policy Optimization) — технологический прорыв компании DeepSeek, позволивший тренировать модели с меньшими вычислительными затратами .

Результаты тестирования на базе модели Qwen 2.5-3b показали следующее:

  1. Метод Intuititor сравнялся по эффективности с gRPO, при этом ИИ не предоставляли «золотых ответов» (эталонных решений, проверенных людьми) .
  2. При обучении на математических задачах модель продемонстрировала прирост производительности на 76% .
  3. Самое важное, по мнению Рота, — это сильные способности к обобщению (generalization) . Модель не просто зазубривала ответы, а улучшала навык решения совершенно новых, невиданных ранее задач.

🧪 Теория «скрытых знаний» и RLIF 6:35

Работа из Беркли дает новые доказательства теории о том, что предобученные модели обладают гораздо более богатыми «скрытыми знаниями» (latent behavior priors), чем считалось ранее . По версии, которую обсуждали исследователи из Anthropic в подкасте Дваркеша Пателя, обучение с подкреплением не добавляет модели абсолютно новые способности, а скорее «вытягивает» или оттачивает то, что уже было заложено на этапе предварительного обучения .

Новый подход получил аббревиатуру RLIF (Reinforcement Learning from Internal Feedback) — обучение с подкреплением на основе внутренней обратной связи . В отличие от RLHF (на основе человеческого фидбека) или RLVR (на основе проверяемых наград), RLIF полностью автономен .

Преимущества обобщения в рамках RLIF:

🛡 Защита от «читерства» и будущее автономности 9:34

Одной из проблем обучения ИИ является «эксплуатация наград» (reward exploitation), когда модель пытается обмануть систему оценки . Например, при написании тестов для кода модель может попытаться создать тест, который всегда проходит успешно, чтобы получить награду без реальной проверки программы . Intuititor, опираясь на внутреннюю уверенность, а не на внешние метрики, кажется более устойчивым к подобным манипуляциям .

Перспективы технологии, по мнению Уэса Рота, выглядят захватывающе:

Уэс Рот считает, что интеграция этого метода с другими способами обучения позволит создавать более надежные и по-настоящему автономные системы, способные решать сложнейшие задачи реального мира .

💬 Цитаты

«Вместо того чтобы оценивать модель по тестам, мы оцениваем её по тому, насколько уверенно она себя чувствует в любом ответе.»

Уэс Рот 1:18

«Reinforcement Learning, возможно, не добавляет новых способностей, а просто оттачивает существующие в скрытом пространстве модели.»

Уэс Рот 7:53

«Это шаг к системам ИИ, способным улучшаться через интроспекцию — как бы странно это ни звучало.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
KL divergence
Математическая мера того, насколько одно распределение вероятностей отличается от другого.
RLIF
Обучение с подкреплением на основе внутренней обратной связи модели.
gRPO
Метод оптимизации политики ИИ, снижающий требования к вычислительным ресурсам.
Latent space
«Скрытое пространство» модели, где хранятся её внутренние представления и знания, полученные при обучении.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Intuititor RLIF Qwen Berkeley Wes Roth