# Верховая езда для мозга: как мы приручаем нейросети

Источник: https://www.youtube.com/watch?v=mv3SIgDP_y4
Канал: The Cognitive Revolution
Опубликовано: 06.06.2023

---

«Мы можем эффективно использовать лошадь, не понимая, что происходит в её мозгу — это верховая езда для ИИ», — так Ронен Элдан описывает парадокс современных нейросетей, чей интеллект опережает нашу способность их понимать. Исследователи Microsoft Research доказали, что секрет логического мышления машин кроется не в объеме накопленных знаний, а в глубине архитектуры и качестве синтетических данных, имитирующих детское обучение.

## 🚀 Рождение идеи: почему маленькие модели — это новая революция в ИИ
[[JUMP:07:12]]

### Идея и мотивация проекта Tiny Stories
[[JUMP:07:12]]
Развитие больших языковых моделей привело к ситуации, когда независимые исследователи практически лишились возможности конкурировать с крупными технологическими гигантами. Как рассказывает исследователь Microsoft Research Ронен Элдан (Ronen Eldan), его путь в сферу глубокого обучения начал развиваться после чистой математики, и он быстро столкнулся с огромным разочарованием. В этой индустрии чрезвычайно легко генерировать новые идеи, но для проверки любой из них требуется колоссальный объем вычислительных мощностей и целые кластеры GPU. Обучение маленьких моделей прошлых поколений, таких как BERT (в транскрипте иронично названных «моделями размером с птицу»), не решало проблему: они попросту не способны генерировать связный, похожий на человеческий текст. Чтобы получить полноценный опыт взаимодействия с LLM, исследователям приходилось тратить огромные бюджеты. Ранее в разговоре ведущие вскользь упоминали, что это создает барьер для изучения эмерджентных способностей и иерархии навыков от грамматики к логике, о чем подробно пойдет речь в следующих главах.

Второй соавтор проекта, Юаньчжи Ли (Yuanzhi Li), также пришедший из академической среды, вспоминает, что еще семь-восемь лет назад в области компьютерного зрения существовали компактные датасеты, такие как CIFAR-10 или MNIST. Они состояли всего из 50 тысяч изображений, а обучение качественных моделей на них занимало максимум один день. Это позволяло быстро и эффективно проводить эксперименты. В эпоху современных LLM исследования стали настолько дорогими, что в научном сообществе заговорили о невозможности защитить докторскую диссертацию (PhD) по машинному обучению, не имея в распоряжении как минимум восьми видеокарт A100. Подобными ресурсами обладает едва ли один процент студентов. Мотивацией для создания проекта Tiny Stories стало желание вернуть те «старые добрые времена» быстрой итерации экспериментов, перенеся концепцию легковесных, но репрезентативных датасетов на текстовые модели.

### Синтетические данные против реальных: в поисках аутентичности
[[JUMP:09:28]]
В попытках решить проблему вычислительной сложности исследователи и раньше пытались создавать уменьшенные или синтетические наборы данных. Однако естественный язык устроен крайне сложно: он включает в себя грамматику, лексику, факты о мире и множество уровней логических рассуждений. Ронен Элдан (Ronen Eldan) отмечает, что до сих пор не существовало ни одного компактного датасета, который бы гармонично объединял в себе все эти качественные измерения. 

Главная проблема существующих синтетических аналогов заключалась в том, что они не являлись репрезентативными для естественного языка. Как подчеркивает Юаньчжи Ли (Yuanzhi Li), большинство таких наборов данных сводились к решению простых арифметических задач, сопоставлению строк или манипулированию символами. Они теряли саму суть человеческой речи. Целью авторов Tiny Stories было снизить общую сложность задачи, но при этом сохранить абсолютную аутентичность и богатство живого языка. 

В качестве примера авторы приводят простую детскую историю про персонажей Тома и Джейн, которые делят тарелку супа. Текст написан простым языком, но содержит в себе все ключевые лингвистические элементы. Когда исследователи протестировали на этой задаче свою миниатюрную модель размером всего в 28 миллионов параметров, она продемонстрировала поразительную способность продолжать текст логически и грамматически корректно, аккуратно описывая, что суп оказался горьким, а предложенные взамен хлеб и сыр — сладкими и вкусными. Это доказало, что даже микро-модели, составляющие всего 2% от размера устаревшей GPT-2, могут успешно осваивать синтаксис и базовую логику, если они обучаются на правильном, аутентичном подмножестве языка.

### Методология создания датасета через GPT-4
[[JUMP:17:19]]
Идея структуры датасета была заимствована из процесса естественного развития человека. Маленькие дети начинают говорить на родном языке вполне связно, оперируя ограниченным запасом слов. Формат коротких рассказов идеально подошел для проекта: именно в повествовательную структуру легче всего интегрировать грамматику, факты и причинно-следственные связи. Для генерации текстов ученые использовали современные модели GPT-3.5 и GPT-4, которые научились безупречно понимать инструкции.

Однако авторы столкнулись с серьезной технической проблемой — отсутствием разнообразия при стандартной генерации. Если просто попросить GPT-4 написать тысячу коротких историй, даже выставив максимальный коэффициент случайности (temperature = 1), модель начнет циклиться. Примерно каждая пятая история (около 20%) будет сводиться к одному и тому же сюжету — например, о ребенке, который боится кататься на горке в парке. Модель стремится минимизировать потери и выдавать наиболее вероятные паттерны из интернета. 

Чтобы преодолеть этот «коллапс моды» и заставить искусственный интеллект выйти за рамки привычной зоны высокой вероятности, исследователи применили уникальную методику:

* Они сформировали базовый словарь из 2000 простых слов, которые обычно понимает типичный трехлетний ребенок.

* При каждом обращении к API модели GPT-4 случайным образом подавались три элемента: один глагол, одно существительное и одно прилагательное (например, «древний», «гром» и «грустный»).

* Модели ставилась жесткая задача — креативно и плавно объединить эти случайные слова в полноценную короткую историю, не нарушая логики повествования.

В общей сложности исследователи выполнили около 1,5 миллиона таких контролируемых запросов, получив на выходе уникальный датасет из 1,5 млн историй. В ходе работы выяснилось, что GPT-4 справляется с этой задачей значительно лучше, чем GPT-3.5. Если более старая модель часто создавала поверхностные сюжеты с резкой, неестественной сменой тем ради того, чтобы просто вставить нужное слово, то GPT-4 продемонстрировала поразительную беглость речи и способность органично связывать даже самые полярные концепты в единое художественное целое.

## 🎓 Прогрессивное обучение и архитектура навыков рассуждения

[[JUMP:26:54]]

В центре внимания исследователей Ронен Элдан и Юаньчжи Ли лежит идея о том, что обучение языковой модели не должно быть хаотичным процессом. Для эффективного освоения языка и логики необходима структура — своего рода «учебный план» или *curriculum learning*. Авторы отмечают, что, в отличие от базовых моделей, которые просто предсказывают следующий токен, модели, прошедшие дообучение на инструкциях (RLHF), гораздо лучше справляются с выполнением конкретных заданий.

Использование синтетических данных позволяет контролировать этот процесс, постепенно усложняя задачи: от простых грамматических конструкций до необходимости следовать сложным сюжетным ограничениям. Ронен Элдан и Юаньчжи Ли подчеркивают: когда мы учим модель, важно избегать «переобучения» на примерах (few-shot), так как это заставляет модель подстраиваться под специфические паттерны конкретного примера, а не усваивать обобщающую логику.

### Кодинг как тренажер для логики
[[JUMP:30:48]]

Одной из самых обсуждаемых гипотез в современном ИИ является связь между обучением на программном коде и способностью моделей к рассуждению. Ронен Элдан и Юаньчжи Ли объясняют это через механизм внимания. Простейшие операции в трансформерах — это поиск одинаковых токенов и копирование контекста вокруг них.

Для модели «чтение» кода — это идеальное упражнение:

*   **Определение переменных:** требует «взгляда назад» в историю текста, чтобы понять, что именно было определено ранее.
*   **Вызовы функций:** вынуждают модель отслеживать логические зависимости и структуру программы.

Авторы полагают, что обучение на коде эффективно настраивает «головы внимания» (attention heads) на выполнение задач, требующих отслеживания дальних зависимостей. Это своего рода «разминка» перед изучением естественного языка, позволяющая модели быстрее освоить базовые навыки логического сопоставления. Ранее в разговоре они кратко упоминали проблематику синтетических данных, однако сейчас они подчеркивают, что их исследование в рамках проекта «Lego» подтвердило: предобучение на задачах с явной структурой ускоряет освоение логических навыков.

### Что мы называем «рассуждением»?
[[JUMP:35:34]]

Определение «рассуждения» в контексте LLM часто вызывает путаницу. Авторы предлагают прагматичный подход: рассуждение — это способность модели сохранять глобальную логическую последовательность, выходящую за пределы ближайшего контекста. 

*   **Локальная последовательность:** использование грамматики и простых шаблонов. Это уровень «стохастического попугая».
*   **Глобальная последовательность:** необходимость учитывать информацию, которая была упомянута далеко «вверх» по тексту, и применять логику исключения.

Ронен Элдан и Юаньчжи Ли приводят пример с предложением, где модель должна выбрать между «кошкой» и «собакой», учитывая, что в предыдущей части текста было прямо сказано о запрете на владение собакой. Если модель выбирает собаку, она игнорирует логическую связность. Таким образом, авторы рассматривают логику как способность применять базовые правила исключения, когда это диктуется контекстом.

### Иерархия микро-навыков
[[JUMP:39:13]]

Авторы предлагают концепцию иерархии навыков, где обучение модели напоминает освоение «микро-навыков» (micro-skills), подобных тем, что тренируют спортсмены. 

1.  **Грамматический уровень:** модель учится базовым правилам (например, предлогам), что покрывает большинство простых предложений.
2.  **Семантический уровень:** модель начинает понимать связи между объектами и действиями.
3.  **Логический уровень:** способность к дедукции и проверке непротиворечивости, что является высшей ступенью в этой иерархии.

Развитие способностей модели — это континуум. Нельзя сказать, что модель «не умеет рассуждать» из-за одной ошибки; скорее, она находится на определенном этапе освоения набора этих микро-навыков, что делает её более или менее эффективной в задачах, требующих строгой логической дисциплины.

## 🧠 Иллюзия скачка: как избыток фактов и редкие триггеры формируют логику нейросетей
[[JUMP:50:22]]

### Плавный рост вместо фазового перехода: истинная природа эмерджентности
[[JUMP:50:22]]
В современных дискуссиях об искусственном интеллекте понятие «эмерджентности» — внезапного скачкообразного появления у нейросетей сложных навыков при достижении определенного масштаба — окружено мистическим ореолом. Однако Ронен Элдан (Ronen Eldan) и Юаньчжи Ли (Yuanzhi Li) предлагают смотреть на этот феномен прагматично. По их мнению, речь идет не о магическом фазовом переходе, а о постепенном, хотя и неравномерном накоплении способности удерживать логическую связность (consistency) текста по мере роста параметров сети.

Эту динамику наглядно иллюстрируют эксперименты исследователей с постепенным масштабированием нейросетей:

* Модели размером от 1 до 5 миллионов параметров полностью проваливают любые логические промты.

* При увеличении емкости до 10 миллионов параметров сеть начинает стабильно генерировать связные и последовательные истории.

* На уровне 30 миллионов параметров модель успешно справляется уже практически со всеми предложенными ей задачами на рассуждение.

Развитие этих когнитивных способностей происходит последовательно: от простейших грамматических правил до удержания глубокого семантического контекста. Например, чтобы успешно продолжить фразу «Джек был голоден, поэтому он пошел искать...» словом «еду», модель должна не просто сопоставить соседние токены, а усвоить фундаментальный факт о реальном мире: голод утоляется пищей. Каждая такая микроспособность постепенно встраивается в структуру сети по мере увеличения ее масштаба, подготавливая базу для более сложных логических цепочек.

### Парадокс масштаба: почему большие модели ошибаются в простых задачах
[[JUMP:53:49]]
Феномен постепенного накопления навыков объясняет удивительный парадокс: почему гигантские языковые модели порой совершают глупые логические ошибки там, где эффективно работают их миниатюрные аналоги. Классический пример — поведение модели GPT-2, которая превосходит экспериментальные сети Microsoft Research по размеру более чем в 50 раз. В задаче на исключение («Девочка хочет кошку или собаку. Мама сказала: никакой собаки. Значит, это будет...») GPT-2 упрямо выдает ответ «собака», хотя триггер отрицания очевиден для человека.

Юаньчжи Ли объясняет эту уязвимость структурой обучающих данных. Большие модели тренируются на огромных массивах нефильтрованного веб-текста (например, Википедии), где ключевой задачей алгоритма становится минимизация общей функции потерь (loss). В таких данных приоритеты смещены:

* Модели гораздо важнее запомнить колоссальный объем фактов — от дат рождения исторических личностей до стилей одежды знаменитостей.

* Логическая связность текста отходит на второй план, поскольку в стандартном веб-контенте прямые логические цепочки встречаются крайне редко — примерно один раз на 20–30 слов.

* В то же время грамматические паттерны требуют внимания каждые 3–4 слова, из-за чего сеть осваивает их в первую очередь.

Ронен Элдан отмечает, что нейросеть заведомо ограничена в своей емкости и вынуждена выбирать, на что тратить внутренние ресурсы. Ей математически «выгоднее» выучить, что Джо Байден является президентом США, чем вникать в тонкие логические связи. 

В результате логика становится редким навыком, который активизируется лишь на финальных стадиях минимизации потерь. Ошибка всего в одном критически важном слове — например, если персонажу, не любящему сладкое, модель предлагает съесть конфету вместо пиццы — с точки зрения математического лосса дает разницу менее чем в 10%. Именно поэтому в масштабах всей модели полноценное логическое мышление или решение математических задач выглядит как внезапно «возникшая» способность, хотя на самом деле это результат долгого пробивания «шума» из фактов.

### Дилемма ширины и глубины: в поисках оптимального баланса данных
[[JUMP:1:05:12]]
Решение проблемы ложной эмерджентности исследователи видят в радикальном пересмотре структуры обучающих выборок. Юаньчжи Ли подчеркивает, что при проектировании новых датасетов критически важно соблюдать баланс между объемом чистых знаний и развитием когнитивных умений. Если данные перегружены фактологией, небольшая модель потратит всю свою емкость на механическое зазубривание, так и не научившись рассуждать.

Ронен Элдан формулирует это через призму компромисса (tradeoff) между двумя ключевыми характеристиками:

1. **Широта (breadth):** объем энциклопедических фактов, размер словаря и разнообразие тем.

2. **Глубина (depth):** способность выстраивать логические цепочки первого, второго и третьего порядка.

На текущий момент в научном сообществе нет исчерпывающих исследований, жестко фиксирующих этот трейдофф, однако ученые уверены в существовании строгого оптимального соотношения ширины и глубины. Полностью исключить знания невозможно: модели необходима база (например, понимание, что «конфета — сладкая»), чтобы на ее основе строить умозаключения. 

Ранее в разговоре исследователи уже касались темы структуры обучения и методологии curriculum learning, однако здесь ученые указывают на фундаментальное ограничение ИИ по сравнению с человеком. В то время как человеческий мозг способен отдельно усваивать сухие факты и отдельно — абстрактные правила логики (как при подготовке к тестам SAT), языковые модели лишены внутренней мотивации комбинировать эти модули, если они жестко разделены в процессе обучения. Модель оптимизирует автозаполнение жадно. Единственный рабочий путь — создавать такое синергетическое соотношение знаний и логики в обучающих данных, которое заставит сеть развивать глубокое мышление, не отвлекаясь на избыточный информационный шум.

## 🧠 Глубина мысли: почему LLM не дети и как информация «сочится» сквозь слои

[[JUMP:1:15:10]]

Разрыв между тем, как обучаются дети, и тем, как тренируются большие языковые модели (LLM), определяет фундаментальные различия в их поведении. Ронен Элдан и Юаньчжи Ли подчеркивают, что ключевое отличие кроется в системе стимулов. Ребёнок учится, обладая субъектностью (agency) и конкретными целями в реальном мире. Для него важнее получить мороженое, чем соблюсти правила грамматики [1:18:54]. В то же время LLM обучаются исключительно предсказанию следующего токена.

### Почему нейросети не стремятся к «мороженому»
[[JUMP:1:15:22]]

В процессе обучения человека родители выступают своего рода агентами RLHF (обучения с подкреплением на основе обратной связи). Они терпимы к грамматическим ошибкам, если суть сообщения ясна, поэтому для ребёнка приоритетом становится логическая связность и достижение цели [1:19:08]. У языковой модели всё наоборот: ошибка в предсказании предлога или запятой наказывается так же строго, как и логическое противоречие.

Юаньчжи Ли отмечает, что на ранних этапах обучения нейросети просто невыгодно смотреть далеко назад по контексту. Для предсказания большинства слов достаточно знать текущее предложение и, возможно, предыдущее. Ронен Элдан приводит в пример генерацию модели GPT-2 XL: в истории про детей, строящих снеговика, которого затем разрушает собака, модель выдает абсурдный финал, где герой «спасает мир», поцеловав снеговика в глаза [1:17:34].

Каждое отдельное предложение в таком тексте грамматически корректно, но глобальная связность отсутствует. Модель «цепляется» за ближайшие токены и сущности, не понимая общего вектора повествования. У неё нет интенции, которая удерживала бы структуру истории на протяжении длинного контекста [1:18:13]. Ранее в разговоре исследователи уже касались того, как синтетические данные помогают исправлять подобные перекосы, но здесь акцент смещается на саму структуру сети.

### Архитектура логики: перколяция и «прыжки» внимания
[[JUMP:1:20:05]]

Одним из самых интригующих выводов исследования Tiny Stories стало влияние глубины нейросети на её способность к рассуждению. Ронен Элдан предлагает рассматривать глубину (количество слоев) как показатель того, сколько раз информация может «просочиться» (percolate) между токенами [1:21:01].

В каждом слое внимания (Attention) информация от одних токенов передаётся другим. Если задача требует многоходовой логики, одного-двух слоёв физически недостаточно. Элдан приводит пример задачи: «Алиса хотела кошку или собаку. Мама не разрешила ей собаку. Что получила Алиса?» [1:22:51]. Чтобы решить её, модели нужно совершить несколько последовательных операций:

1.  Идентифицировать объекты (кошка, собака).
2.  Связать отрицание «не» с «собакой».
3.  Вычесть «собаку» из набора доступных вариантов и прийти к «кошке» [1:23:46].

Каждый такой логический шаг — это «прыжок» или «хоп» (hop) между токенами. Если токен «не» должен изменить смысл токена «собака», а затем этот составной концепт «не-собака» должен повлиять на генерацию ответа, это требует минимум двух слоёв перколяции [1:26:43]. 

В этом контексте ширина модели (размерность скрытых слоёв) отвечает за объем памяти и количество фактов. Если модели нужно просто знать, что столица Франции — Париж, ей достаточно широкого слоя, работающего как «таблица поиска» (lookup table) [1:25:22]. Но если требуется логический вывод, глубина становится критическим фактором. Исследователи обнаружили прямую корреляцию между количеством слоёв и способностью модели решать синтетические задачи на рассуждение (например, в их проекте Lego) [1:28:05]. Хотя широкие модели иногда могут имитировать логику за счёт перебора комбинаций, глубина остается наиболее эффективным способом реализации последовательного мышления [1:27:11].

### Дистанция и смыслы: анатомия внимания в малых моделях
[[JUMP:1:29:27]]

Малые модели оказались неожиданно удобным инструментом для интерпретации работы механизмов внимания. В больших трансформерах головы внимания часто представляют собой «информационную кашу», но в Tiny Stories учёные увидели чёткую специализацию [1:35:49].

Головы внимания разделились на два выраженных типа:

1.  **Дистанционные головы:** Они фокусируются на расстоянии между токенами. Их работа поразительно напоминает схему ALiBi (метод позиционного кодирования), где сила внимания затухает с увеличением дистанции [1:30:10]. Эти головы отвечают за локальную грамматику и связность соседних слов.
2.  **Семантические головы:** Они игнорируют расстояние и ищут конкретные смыслы. Например, одна голова может стабильно активироваться только на именах главных героев, помогая модели сохранять консистентность персонажей на протяжении всей истории [1:34:09]. Другие головы фокусируются на объектах (например, «банан» или «парк»), чтобы правильно подбирать артикли или местоимения в последующих предложениях [1:34:46].

Интересно, что такая чистота разделения функций — «дихотомия дистанции и семантики» — характерна именно для малых моделей. Юаньчжи Ли объясняет это тем, что у маленькой сети нет «права на ошибку»: чтобы минимизировать потери при обучении, она вынуждена формировать максимально эффективные и узкоспециализированные модули [1:36:17]. У гигантских моделей избыток параметров позволяет одной функции распределяться между пятью головами или тремя слоями, что делает их гораздо менее интерпретируемыми для исследователей [1:36:30]. 

Этот феномен плавно подводит к вопросу о том, можно ли найти столь же чёткие концепты не только в механизмах внимания, но и в отдельных нейронах, что станет ключом к полному контролю над поведением моделей в будущем.

## 🔍 Архитектура понимания: нейроны и концепты

[[JUMP:1:40:35]]

Исследователи Ронен Элдан (Ronen Eldan) и Юаньчжи Ли (Yuanzhi Ли) отмечают фундаментальную разницу в том, как устроена интерпретируемость в моделях разных масштабов. В компактных нейронных сетях отдельные нейроны часто выполняют конкретные, легко прослеживаемые функции. Например, можно наблюдать механизм, где один нейрон «отслеживает» имя персонажа, а другой — активируется при необходимости вставить это имя в текст. Это позволяет ученым буквально «видеть» алгоритм работы модели в действии.

В больших же моделях поиск подобных структур превращается в крайне сложную задачу. По мнению Ронена Элдана, это не обязательно означает, что в LLM отсутствуют специализированные нейроны, но их обнаружение среди десятков тысяч параметров сродни поиску иголки в стоге сена. Причины, по которым малые модели кажутся более прозрачными, кроются в самой их ограниченности:

*   **Плотность специализации:** В маленькой сети каждый нейрон вынужден участвовать в решении базовых задач, таких как грамматика или консистентность, так как модель просто не обладает избыточностью.
*   **Минимизация хаоса:** В больших сетях существует множество способов конфигурации весов для решения одной задачи. Большинство этих путей превращаются в «огромный хаос», где нейроны распределяют функции между собой невероятно запутанным образом.
*   **Эффективность против энтропии:** Малые модели, не имея «ресурса» на неорганизованность, вынуждены выстраивать свои веса более структурированно, что делает интерпретируемость побочным эффектом их архитектурной компактности.

Ранее в разговоре авторы обсуждали вопросы переноса знаний между архитектурами и проблему эмерджентности. Несмотря на текущие успехи в интерпретации механизмов внимания (например, в работе Lego), Юаньчжи Ли и Ронен Элдан признают, что глубокое понимание внутренних процессов остается для индустрии далекой целью.

---

### 🏇 Будущее контроля: ИИ как верховая езда

[[JUMP:1:56:43]]

Дискуссия о будущем взаимодействия человека с моделями приводит к неожиданной аналогии: верховая езда. Ронен Элдан предполагает, что мы можем чрезмерно фиксироваться на попытках «взломать» биологию нейросети. Подобно тому, как человечество на протяжении тысячелетий успешно использовало лошадей для преодоления огромных расстояний, не имея ни малейшего представления о работе каждого отдельного нейрона в мозгу животного, мы можем научиться эффективно управлять LLM.

Этот подход к «приручению» моделей подразумевает:

*   **Смена парадигмы:** Вместо попыток заглянуть внутрь весов, исследователи предлагают перейти к методам, напоминающим психологические тесты или изучение поведения субъекта.
*   **Надежность через опыт:** Юаньчжи Ли проводит параллель с тем, как люди учатся подавать команды и физические сигналы, на которые лошадь отвечает предсказуемо и надежно.
*   **Прагматизм:** Даже при скептическом отношении к возможности полностью интерпретировать внутренний «черный ящик» нейросети, исследователи выражают оптимизм относительно контроля и безопасности.

Ключ к будущему ИИ может лежать не в исчерпывающем техническом знании каждого параметра, а в оттачивании навыков коммуникации и управления системой, подобно тому, как монгольские всадники использовали лошадей, основываясь на практическом опыте, а не на биологических знаниях. Это позволяет использовать мощь моделей для качественного ускорения человеческого прогресса, сохраняя надежность результатов, даже если «биология» модели остается скрытой.