Джейкоб Андреас: «Как современные языковые модели учатся рассуждать»

MIT OpenCourseWare 2,5 тыс. 1 ч 17 мин 2 мин 11.02.2026
Главное

🧠 Эволюция языковых моделей: от предсказания слов к рассуждениям 0:12

Современные большие языковые модели (LLM) стали фундаментальным технологическим сдвигом, выходящим за рамки классического глубокого обучения. Лекция профессора MIT Джейкоба Андреаса посвящена трансформации парадигмы: от статистических методов предсказания следующего токена до систем, способных к обучению в контексте и сложному многошаговому рассуждению.

📈 Историческая ретроспектива: от частотных словарей к трансформерам 2:57

Развитие технологий предсказания текста прошло долгий путь, начавшись ещё в послевоенные годы с процедур расшифровки кодов, подобных Enigma.

Важным выводом является то, что одни лишь параметры и данные не гарантируют успех. Индуктивное смещение (inductive bias), присущее современным нейронным последовательным моделям, делает их значительно эффективнее предыдущих разработок.

🛠️ Переход к претрейнингу и промптингу 11:00

Около 2014 года фокус сместился: вместо обучения узкоспециализированных систем (например, только для перевода) исследователи начали использовать языковые модели для генерации последовательностей напрямую.

🧩 Обучение в контексте: «магия» или алгоритм? 24:22

Внутри сообщества ведутся дискуссии о природе in-context learning. Если раньше это считалось лишь «извлечением задач», то современные данные свидетельствуют о том, что модели могут реализовывать внутренние алгоритмы обучения (похожие на градиентный спуск) при обработке примеров.

🔍 Цепочка рассуждений (Chain-of-Thought) 40:39

Для решения сложных задач, требующих времени на «обдумывание», используется метод chain-of-thought prompting.

  1. Принцип: Вместо прямого ответа модель побуждают генерировать промежуточные этапы решения (например, при сложении чисел).
  2. «Магические» инкантации: Исследование показало, что добавление фразы «Let’s think step by step» (Давай подумаем шаг за шагом) резко повышает точность ответов на арифметические задачи — с 18% до 80%.

🛡️ Инструкции и обратная связь (RLHF) 53:27

Для того чтобы модель стала полезным помощником, следующим инструкциям, одного претрейнинга на интернет-данных недостаточно.

💬 Цитаты

«Если вы хотите научить модель чему-то новому, синтетических данных недостаточно. Нужно либо фильтровать их, либо иметь разницу между процессом генерации и процессом обучения.»

Джейкоб Андреас 59:21

«Одной из величайших степеней контроля над моделями сегодня является умение составить эффективный промпт — это навык, который становится всё более востребованным в индустрии.»

Джейкоб Андреас 49:01
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Perplexity
Метрика качества языковой модели; чем ниже значение, тем лучше модель предсказывает следующий токен.
Chain-of-Thought
Метод промптинга, заставляющий модель пошагово описывать логический процесс решения задачи.
RLHF
Обучение с подкреплением на основе отзывов людей для корректировки поведения модели.
In-context learning
Способность модели адаптироваться к задаче через примеры, включенные в промпт, без изменения весов сети.
📊 Цифры
🗓 Хронология
  1. 1960-е — 2000-е Эпоха count-based моделей для предсказания следующего слова.
  2. 2014 Сдвиг парадигмы: использование моделей для прямой генерации последовательностей.
  3. 2017 Появление архитектуры трансформеров и осознание важности переноса знаний (transfer learning).
  4. 2022 Широкое обсуждение возможностей in-context learning и chain-of-thought.
⚖️ Другая сторона
Искусственный интеллект Large Language Models Chain-of-Thought RLHF Transformers