Джейкоб Андреас: «Как современные языковые модели учатся рассуждать»

🧠 Эволюция языковых моделей: от предсказания слов к рассуждениям 0:12

Современные большие языковые модели (LLM) стали фундаментальным технологическим сдвигом, выходящим за рамки классического глубокого обучения. Лекция профессора MIT Джейкоба Андреаса посвящена трансформации парадигмы: от статистических методов предсказания следующего токена до систем, способных к обучению в контексте и сложному многошаговому рассуждению.

📈 Историческая ретроспектива: от частотных словарей к трансформерам 2:57

Развитие технологий предсказания текста прошло долгий путь, начавшись ещё в послевоенные годы с процедур расшифровки кодов, подобных Enigma.

Модели на основе подсчётов (count-based): С 1960-х по начало 2000-х годов основным инструментом был частотный анализ. Алгоритмы подсчитывали вероятность следующего слова на основе коротких контекстов (например, что следует после «once upon»?).
Эра нейронных сетей: В 2000-х годах их сменили нейросетевые модели, давшие лишь скромный прирост качества (показателя perplexity).
Эпоха трансформеров: Современный этап характеризуется использованием архитектуры трансформеров, масштабированием объёмов данных и количества параметров.

Важным выводом является то, что одни лишь параметры и данные не гарантируют успех. Индуктивное смещение (inductive bias), присущее современным нейронным последовательным моделям, делает их значительно эффективнее предыдущих разработок.

🛠️ Переход к претрейнингу и промптингу 11:00

Около 2014 года фокус сместился: вместо обучения узкоспециализированных систем (например, только для перевода) исследователи начали использовать языковые модели для генерации последовательностей напрямую.

Masked Language Modeling (MLM): Популярный подход (например, модель BERT), при котором модель учится восстанавливать скрытые слова в предложении. Это позволило моделям «впитывать» как лингвистическую структуру, так и фактические знания о мире (например, дату основания MIT — 1861 год).
Few-Shot и Zero-Shot промптинг: Уникальное открытие последних лет заключается в том, что при достаточном масштабе модели начинают демонстрировать способности к арифметике, переводу и логике без дообучения (fine-tuning), а лишь на основе предоставленного контекста.

🧩 Обучение в контексте: «магия» или алгоритм? 24:22

Внутри сообщества ведутся дискуссии о природе in-context learning. Если раньше это считалось лишь «извлечением задач», то современные данные свидетельствуют о том, что модели могут реализовывать внутренние алгоритмы обучения (похожие на градиентный спуск) при обработке примеров.

Риски: В ранних версиях модели могли быть чрезмерно чувствительны к порядку примеров или выбору меток (labels).
Масштаб: С ростом моделей (например, до уровня GPT-4) способность улавливать ассоциации между входом и меткой значительно улучшается.

🔍 Цепочка рассуждений (Chain-of-Thought) 40:39

Для решения сложных задач, требующих времени на «обдумывание», используется метод chain-of-thought prompting.

Принцип: Вместо прямого ответа модель побуждают генерировать промежуточные этапы решения (например, при сложении чисел).
«Магические» инкантации: Исследование показало, что добавление фразы «Let’s think step by step» (Давай подумаем шаг за шагом) резко повышает точность ответов на арифметические задачи — с 18% до 80%.

🛡️ Инструкции и обратная связь (RLHF) 53:27

Для того чтобы модель стала полезным помощником, следующим инструкциям, одного претрейнинга на интернет-данных недостаточно.

Instruction Tuning: Целенаправленное дообучение на наборах данных, описывающих выполнение конкретных задач.
RLHF (Reinforcement Learning from Human Feedback): Третий этап обучения, где создаётся «модель вознаграждения» (reward model) на основе оценок людей. Это позволяет научить модель отказываться от вредных ответов (например, помощи в списывании на экзамене) или признаваться в отсутствии знаний («I don't know»), что недоступно при простом предсказании слов.