# Прорыв в Беркли: как ученые воссоздали технологии DeepSeek R1 за $30

Источник: https://www.youtube.com/watch?v=E_h8xt0X1Kg
Канал: Wes Roth
Опубликовано: 31.01.2025

---

Исследовательская группа из Беркли под руководством аспиранта Дж. Пэна совершила технологический прорыв, воссоздав ключевые технологии самообучения китайской модели DeepSeek R1 всего за 30 долларов. Этот эксперимент доказывает, что сложные стратегии логического мышления и так называемый «момент озарения» могут возникать в миниатюрных нейросетях, доступных каждому. Известный ИТ-обозреватель Уэс Рот подробно разобрал, почему это событие может спровоцировать «кембрийский взрыв» в сфере открытого программного обеспечения и навсегда изменить индустрию искусственного интеллекта.

## 🧠 Прорыв в Беркли: Эволюция ИИ за тридцать долларов
[[JUMP:0:00]]

Новость о выходе китайской модели DeepSeek R1 вызвала масштабные потрясения на фондовом рынке, лишив технологический сектор более триллиона долларов капитализации за один день. Однако подлинная революция разворачивается сейчас в академической среде. Исследовательская группа из Беркли во главе с аспирантом Дж. Пэном успешно реплицировала ключевые технологии DeepSeek R1-Zero, потратив на вычисления сумму, эквивалентную стоимости ужина на двоих. Все материалы, включая код и результаты экспериментов, авторы выложили в открытый доступ на GitHub, чтобы любой желающий мог проверить и воспроизвести их выводы.

Главным достижением исследователей стало воспроизведение так называемого «момента озарения» (aha moment). Под этим термином в ИИ-сообществе понимают способность модели самостоятельно, в процессе обучения с подкреплением (Reinforcement Learning), находить новые стратегии решения задач без явных указаний со стороны человека. Модель фактически демонстрирует самоэволюцию, развивая продвинутые аналитические навыки автономно. Ранее считалось, что подобные эмерджентные свойства доступны только гигантским моделям, создание которых требует миллионов долларов, однако эксперимент в Беркли доказывает обратное. По мнению Уэса Рота, это знаменует колоссальную демократизацию ИИ-исследований.

## 📉 Алгоритмический прорыв против дефицита ресурсов
[[JUMP:2:38]]

Ключевым фактором столь радикального снижения стоимости обучения стало не только удешевление оборудования, но и стремительный прогресс в области ИИ-алгоритмов. Ведущий напоминает о недавней публикации Дарио Амодеи, главы ИИ-лаборатории Anthropic. Амодеи отметил, что эффективность программного обеспечения и архитектурных решений растет беспрецедентными темпами, снижая затраты на вычисления.

Историческая динамика алгоритмического улучшения ИИ:

* В 2020 году команда Амодеи оценивала скорость программной оптимизации в 1,68 раза за год.
* Сегодня, согласно актуальным оценкам Амодеи, этот показатель достиг внушительных 4х в год.

Это означает, что вычислительная задача, требовавшая огромных бюджетов вчера, завтра будет обходиться в центы. Уникальность эксперимента Дж. Пэна заключается в том, что сложнейшее логическое мышление удалось запустить на «крошечной» модели объемом всего 1,5 миллиарда параметров. 

Для сравнения, Уэс Рот приводит стандартную классификацию современных языковых моделей по размеру:

* Малые модели: обычно имеют размер около 7 миллиардов параметров.
* Средние модели: насчитывают порядка 70 миллиардов параметров.
* Крупные модели: флагманы вроде Meta Llama достигают 405–450 миллиардов параметров, а закрытая GPT-4, по неофициальным данным, оценивается в 1,7 триллиона параметров.

## 🎮 Магия игры в «Отсчёт» и феномен самообучения
[[JUMP:4:09]]

В качестве экспериментального полигона исследователи из Беркли использовали математическую игру «Отсчет» (countdown task). Модели давался набор чисел (например: 19, 3, 6, 55 и 7) и требовалось составить уравнение, результатом которого станет число 65. В процессе обучения нейросеть продемонстрировала цепочку рассуждений (Chain of Thought), перейдя от слепого случайного угадывания к сложнейшим стратегиям поиска и самопроверки.

Сам автор исследования, Дж. Пэн, делает важную оговорку: на данный момент методика валидирована исключительно на задаче «Отсчет» и пока не тестировалась в общей сфере логического мышления. Тем не менее, результаты поражают. В другой когнитивной задаче — на многозначное умножение — нейросеть самостоятельно догадалась использовать распределительный (дистрибутивный) закон математики для разбиения сложного примера на простые шаги. При этом человек не закладывал это правило в алгоритм — модель сама создала эффективную среду обучения с подкреплением.

В ходе тестов ученые выявили важный порог масштабирования:

* Модели размером 0,5 миллиарда параметров (500 миллионов) оказались неспособны к логике и выдавали лишь базовые догадки.
* Модели от 1,5 миллиарда параметров и выше внезапно демонстрировали выдающиеся способности к самостоятельному решению задач.

По словам Уэса Рота, этот порог оказался намного ниже, чем предполагало большинство экспертов. Кроме того, тип самого алгоритма обучения с подкреплением оказался менее критичным, чем ожидалось. Самым удивительным открытием стало то, что нейросеть развивала специализированные, а не универсальные подходы: для игры использовался поиск и верификация, а для математики — дистрибутивный закон.


[Image of reinforcement learning feedback loop]


## ⚔️ Битва прогнозов: Техноутопия Ашенбреннера против скептицизма Хоссенфельдер
[[JUMP:9:21]]

Анализируя долгосрочные последствия таких прорывов, Уэс Рот обращается к знаменитому манифесту Леопольда Ашенбреннера «Ситуационная осведомленность» (Situational Awareness). Ашенбреннер прогнозирует наступление «взрыва интеллекта» к 2026–2027 годам, когда искусственный интеллект превзойдет человека в большинстве задач, включая саму разработку ИИ. Дарио Амодеи во многом разделяет эти временные рамки.

Однако в ИИ-сообществе существует жесткая оппозиция этой теории. Известный физик и популяризатор науки Сабина Хоссенфельдер (Sabine Hossenfelder) подвергла концепцию Ашенбреннера резкой критике. По мнению Хоссенфельдер, ИИ-разработчики живут в «техноутопическом пузыре», охваченном жестким групповым мышлением.

Хоссенфельдер выделяет два фундаментальных барьера для развития ИИ:

* Энергетический тупик: обучение крупномасштабных моделей требует колоссального, физически труднообеспечиваемого объема энергии.
* Кризис данных: человечество уже обучило нейросети на всем доступном массиве интернет-текстов, и брать новые качественные данные просто неоткуда.

Уэс Рот, однако, отмечает, что аргумент Хоссенфельдер о дефиците данных частично опровергается практикой создания синтетических данных. Ведущий утверждает, что ведущие лаборатории (включая OpenAI с ее моделями серии O1 и O3) используют логические выводы самих моделей для обучения следующих поколений. Более того, появление DeepSeek доказало возможность сокращения затрат на вычисления почти на 50%. 

Рот подчеркивает феномен DeepSeek: будучи китайской компанией, она работает в совершенно иной культуре, далекой от венчурного капитала Кремниевой долины, но пришла к аналогичным выводам о силе самоэволюции алгоритмов. Прогресс в науке строится на взаимном заимствовании, и американские компании, по мнению ведущего, вскоре переймут энергоэффективные архитектурные находки китайских коллег.

## 🧬 От AlphaGo до LLM: Эра «тренажёрных залов» для нейросетей
[[JUMP:15:26]]

Чтобы объяснить природу успеха обучения с подкреплением, Уэс Рот напоминает историю знаковых проектов Google DeepMind с приставкой «Alpha»:

* AlphaGo Zero разгромила профессионалов, обучаясь исключительно через игру с самой собой (self-play), вообще без человеческих данных.
* AlphaFold совершила революцию в биологии, за секунды просчитывая сложнейшие трехмерные структуры сворачивания белков, вариаций которых во Вселенной больше, чем атомов.
* AlphaProof и AlphaGeometry едва не завоевали золотую медаль на Международной математической олимпиаде (IMO), отстав от абсолютного золота всего на один балл.

Все эти системы объединяет один фундамент — обучение с подкреплением, где за правильные действия алгоритм получает награду, а за ошибочные — штраф. Сегодня индустрия переживает исторический момент: этот мощный метод скрещивают с возможностями больших языковых моделей (LLM). 

Специалисты открыто заявляют, что самый эффективный шаг для развития open-source сегодня — это конструирование огромного разнообразия симуляционных сред («тренажерных залов» или RL-gyms), которые заставят LLM вырабатывать когнитивные стратегии рассуждения под конкретные задачи.

## 📚 Трёхступенчатая модель Карпати и будущее кастомных моделей
[[JUMP:18:19]]

Выдающийся ИИ-инженер Андрей Карпати (Andrej Karpathy) поддержал эксперимент Беркли ретвитом и предложил наглядную метафору для понимания структуры данных при обучении современных нейросетей. Карпати сравнил этот процесс с изучением школьного учебника, в котором выделяются три типа информации:

1. Текст параграфа (экспозиция, теория) — это этап предварительного обучения (Pre-training), когда нейросеть хаотично впитывает терабайты интернета.
2. Разборы задач с готовыми решениями — это контролируемое обучение (Supervised Fine-Tuning, SFT), где модель натаскивают на идеальные ответы, написанные людьми. *Примечание: модель DeepSeek R1-Zero уникальна тем, что полностью пропустила этот шаг.*
3. Задачи для самостоятельного решения в конце главы (где указан только финальный ответ для самопроверки, без хода рассуждений) — это и есть обучение с подкреплением (RL).

Благодаря этой трехступенчатой концепции и успеху Беркли, перед миром открываются невероятные перспективы. Если для сложного логического мышления достаточно крошечной модели за 20–30 долларов, бизнес и наука смогут создавать узкоспециализированные ИИ-агенты феноменальной мощности.

Перспективные направления применения дешевых специализированных моделей:

* Медицинский скрининг: ультрадешевые и точные системы первичного триажа пациентов, способные мгновенно определить необходимость экстренной госпитализации и разгрузить персонал больниц.
* Высокоточный юридический аудит: кастомные мини-модели для анализа договоров, настроенные под специфические требования конкретного клиента или индустрии.
* Интеллектуальная поддержка клиентов: чат-боты для узких продуктовых ниш (например, производители БАДов), способные сопоставлять характеристики товара с ДНК-мутациями и особенностями здоровья клиента на экспертном уровне.

По мнению Уэса Рота, доступность таких микро-моделей спровоцирует эволюционный скачок, сравнимый с Кембрийским взрывом. Открытое сообщество, вооруженное концепцией виртуальных «спортзалов» и копеечными бюджетами на вычисления, стоит на пороге технологической сингулярности.