Ядерные реакторы и модель GRIN MoE: как Microsoft строит инфраструктуру для AGI

Корпорация Microsoft переходит к радикальным мерам в гонке за создание сильного искусственного интеллекта (AGI), делая ставку на ядерную энергетику и сверхэффективные архитектуры нейросетей. В новом обзоре технологический аналитик Уэс Рот (Wes Roth) разбирает, почему технологический гигант готов оживить печально известную АЭС, как новые модели «смеси экспертов» (MoE) меняют правила игры в программировании и чего ожидать от следующей фазы развития OpenAI под руководством Сэма Альтмана.

☢️ Ядерный ренессанс: Microsoft и Три-Майл-Айленд 0:00

Энергопотребление становится главным «узким местом» в развитии ИИ, что вынуждает крупнейших игроков рынка искать максимально плотные источники энергии. Уэс Рот подчеркивает колоссальную разницу в эффективности: одна крошечная гранула урана (высотой около 2,5 см) содержит столько же энергии, сколько одна тонна угля или 120 галлонов (около 450 литров) нефти . По мнению автора, именно эта плотность делает атомную энергетику безальтернативным вариантом для питания дата-центров будущего.

Ключевым событием стала сделка Microsoft с публичной компанией Constellation Energy о возобновлении работы реактора на станции Три-Майл-Айленд (Three Mile Island). Рот призывает не поддаваться панике из-за заголовков:

Авария 1979 года, ставшая крупнейшей в истории США, произошла на втором энергоблоке (Unit 2).
Microsoft планирует запустить первый энергоблок (Unit 1), который продолжал успешно работать десятилетиями после инцидента и был законсервирован лишь в 2019 году по экономическим причинам .
Соглашение рассчитано на 20 лет, а запуск реактора намечен на 2028 год .

Генеральный директор Constellation Energy охарактеризовал это решение как мощный символ возрождения атомной энергетики в качестве чистого и надежного источника энергии .

🧠 GRIN MoE: Маленькая модель с большими возможностями 3:16

Параллельно с решением энергетических вопросов, Microsoft представила архитектурный прорыв — модель GRIN MoE (Gradient Informed Mixture of Experts). Главная особенность «смеси экспертов» (MoE) заключается в том, что нейросеть представляет собой не единый монолит, а коллекцию специализированных субмоделей .

Основные характеристики GRIN MoE:

Общее количество параметров: 3,8 миллиарда.
Количество активных параметров (используемых при ответе): 6,6 миллиарда .
Производительность: модель превосходит «плотные» (dense) модели размером 7 миллиардов параметров и не уступает моделям на 14 миллиардов параметров, обученным на тех же данных .

По мнению Уэса Рота, эффективность этой модели делает её идеальной для использования в средах с ограниченными вычислительными ресурсами и памятью: в смартфонах, термостатах или бортовых компьютерах автомобилей, где важна минимальная задержка отклика .

💻 Будущее кодинга: Конец программиста или взлет инженера? 6:31

Развитие ИИ-моделей, демонстрирующих выдающиеся способности в логике и математике, вызывает острую дискуссию о судьбе профессии разработчика. Рот ссылается на мнение руководителей крупнейших компаний (Nvidia, AWS), которые полагают, что ИИ не заменит инженеров полностью, но радикально изменит характер их работы .

В дискуссии под одним из прошлых видео автора пользователь internal cold 14 выдвинул тезис, который Рот считает ключевым: мы наблюдаем «конец программиста», но «взлет программного инженера» .

Аргументы в пользу изменения роли разработчика:

ИИ возьмет на себя рутинную работу («grunt work»), позволяя человеку сосредоточиться на планировании и надзоре.
Результаты тестов HumanEval показывают феноменальный рост: если в 2021 году точность лучших моделей составляла около 32%, то современные системы, такие как Claude 3.5 Sonnet или GPT-4o, достигают 90–92% .
Модель GRIN MoE от Microsoft при своем крошечном размере показывает результат 74,4% на HumanEval, что выше, чем у гигантских моделей прошлых лет .

Рот заключает, что при прочих равных условиях побеждать на рынке труда будет тот инженер, который научится эффективнее управлять ИИ-инструментами, а не тот, кто просто пишет код .

🚀 Сэм Альтман о модели o1 и пяти уровнях ИИ 14:38

На совместном мероприятии с T-Mobile глава OpenAI Сэм Альтман подробно рассказал о новой модели o1 (известной как «Strawberry»). Он сравнил серию GPT с «Системой 1» (инстинктивное, быстрое мышление), в то время как o1 представляет собой «Систему 2» — способность к глубоким рассуждениям и логическому выводу .

Ключевые тезисы Альтмана:

Текущая версия o1-preview находится на стадии «GPT-2» в мире моделей-рассуждателей. В ближайшие месяцы и годы ожидается резкий скачок до уровня «GPT-4» .
Кривая улучшений сейчас очень крутая: проблемы, которые модель не может решить сегодня, станут решаемыми через несколько месяцев .
Интерфейс чата — лишь начало. Появятся принципиально новые способы взаимодействия с ИИ, которые пользователям еще предстоит освоить .

Альтман также напомнил об иерархии развития ИИ, которую выстроила OpenAI:

Чат-боты (уже достигнуто).
Рассуждатели (Reasoners) — стадия, на которой мы находимся сейчас с o1 .
Агенты (Agents) — ИИ, способный выполнять действия в течение долгого времени от имени пользователя.
Инноваторы (Innovators) — способность делать научные открытия.
Полные организации (Full Organizations).

По словам Альтмана, переход ко второму уровню занял много времени, но именно способности к рассуждению позволят уровню «Агентов» наступить относительно быстро .

🌯 ИИ в быту: От кодинга до гуакамоле 13:40

В завершение обзора Уэс Рот упоминает внедрение робототехники в повседневную жизнь на примере сети Chipotle. Компания внедряет робота «Autocado» для приготовления чаш с едой (bowls) . Рот иронизирует над термином «семантическое насыщение» — психологическим феноменом, когда повторение слова (например, «Chipotle») заставляет его временно терять смысл в сознании человека . Несмотря на забавный контекст, это подчеркивает тренд: автоматизация проникает не только в облачные вычисления, но и в физический мир.