Ядерные реакторы и модель GRIN MoE: как Microsoft строит инфраструктуру для AGI

Wes Roth 77,9 тыс. 18 мин 4 мин 21.09.2024
Главное

Корпорация Microsoft переходит к радикальным мерам в гонке за создание сильного искусственного интеллекта (AGI), делая ставку на ядерную энергетику и сверхэффективные архитектуры нейросетей. В новом обзоре технологический аналитик Уэс Рот (Wes Roth) разбирает, почему технологический гигант готов оживить печально известную АЭС, как новые модели «смеси экспертов» (MoE) меняют правила игры в программировании и чего ожидать от следующей фазы развития OpenAI под руководством Сэма Альтмана.

☢️ Ядерный ренессанс: Microsoft и Три-Майл-Айленд 0:00

Энергопотребление становится главным «узким местом» в развитии ИИ, что вынуждает крупнейших игроков рынка искать максимально плотные источники энергии. Уэс Рот подчеркивает колоссальную разницу в эффективности: одна крошечная гранула урана (высотой около 2,5 см) содержит столько же энергии, сколько одна тонна угля или 120 галлонов (около 450 литров) нефти . По мнению автора, именно эта плотность делает атомную энергетику безальтернативным вариантом для питания дата-центров будущего.

Ключевым событием стала сделка Microsoft с публичной компанией Constellation Energy о возобновлении работы реактора на станции Три-Майл-Айленд (Three Mile Island). Рот призывает не поддаваться панике из-за заголовков:

Генеральный директор Constellation Energy охарактеризовал это решение как мощный символ возрождения атомной энергетики в качестве чистого и надежного источника энергии .

🧠 GRIN MoE: Маленькая модель с большими возможностями 3:16

Параллельно с решением энергетических вопросов, Microsoft представила архитектурный прорыв — модель GRIN MoE (Gradient Informed Mixture of Experts). Главная особенность «смеси экспертов» (MoE) заключается в том, что нейросеть представляет собой не единый монолит, а коллекцию специализированных субмоделей .

Основные характеристики GRIN MoE:

По мнению Уэса Рота, эффективность этой модели делает её идеальной для использования в средах с ограниченными вычислительными ресурсами и памятью: в смартфонах, термостатах или бортовых компьютерах автомобилей, где важна минимальная задержка отклика .

💻 Будущее кодинга: Конец программиста или взлет инженера? 6:31

Развитие ИИ-моделей, демонстрирующих выдающиеся способности в логике и математике, вызывает острую дискуссию о судьбе профессии разработчика. Рот ссылается на мнение руководителей крупнейших компаний (Nvidia, AWS), которые полагают, что ИИ не заменит инженеров полностью, но радикально изменит характер их работы .

В дискуссии под одним из прошлых видео автора пользователь internal cold 14 выдвинул тезис, который Рот считает ключевым: мы наблюдаем «конец программиста», но «взлет программного инженера» .

Аргументы в пользу изменения роли разработчика:

  1. ИИ возьмет на себя рутинную работу («grunt work»), позволяя человеку сосредоточиться на планировании и надзоре.
  2. Результаты тестов HumanEval показывают феноменальный рост: если в 2021 году точность лучших моделей составляла около 32%, то современные системы, такие как Claude 3.5 Sonnet или GPT-4o, достигают 90–92% .
  3. Модель GRIN MoE от Microsoft при своем крошечном размере показывает результат 74,4% на HumanEval, что выше, чем у гигантских моделей прошлых лет .

Рот заключает, что при прочих равных условиях побеждать на рынке труда будет тот инженер, который научится эффективнее управлять ИИ-инструментами, а не тот, кто просто пишет код .

🚀 Сэм Альтман о модели o1 и пяти уровнях ИИ 14:38

На совместном мероприятии с T-Mobile глава OpenAI Сэм Альтман подробно рассказал о новой модели o1 (известной как «Strawberry»). Он сравнил серию GPT с «Системой 1» (инстинктивное, быстрое мышление), в то время как o1 представляет собой «Систему 2» — способность к глубоким рассуждениям и логическому выводу .

Ключевые тезисы Альтмана:

Альтман также напомнил об иерархии развития ИИ, которую выстроила OpenAI:

  1. Чат-боты (уже достигнуто).
  2. Рассуждатели (Reasoners) — стадия, на которой мы находимся сейчас с o1 .
  3. Агенты (Agents) — ИИ, способный выполнять действия в течение долгого времени от имени пользователя.
  4. Инноваторы (Innovators) — способность делать научные открытия.
  5. Полные организации (Full Organizations).

По словам Альтмана, переход ко второму уровню занял много времени, но именно способности к рассуждению позволят уровню «Агентов» наступить относительно быстро .

🌯 ИИ в быту: От кодинга до гуакамоле 13:40

В завершение обзора Уэс Рот упоминает внедрение робототехники в повседневную жизнь на примере сети Chipotle. Компания внедряет робота «Autocado» для приготовления чаш с едой (bowls) . Рот иронизирует над термином «семантическое насыщение» — психологическим феноменом, когда повторение слова (например, «Chipotle») заставляет его временно терять смысл в сознании человека . Несмотря на забавный контекст, это подчеркивает тренд: автоматизация проникает не только в облачные вычисления, но и в физический мир.


💬 Цитаты

«Мы находимся на стадии GPT-2 для этих новых моделей-рассуждателей, и в ближайшие годы вы увидите их рост до эквивалента GPT-4.»

Сэм Альтман 16:42

«Это не конец инженера, а взлет программного инженера и конец кодера-программиста.»

Уэс Рот (цитируя комментатора) 07:22
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
MoE (Mixture of Experts)
Архитектура нейросетей, состоящая из множества специализированных подсетей («экспертов»), из которых активируются только нужные для конкретной задачи.
HumanEval
Популярный бенчмарк для оценки способности языковых моделей генерировать корректный программный код.
Семантическое насыщение
Психологический эффект, при котором многократное повторение слова приводит к временной потере его значения.
AGI Eval
Ориентированный на человека бенчмарк для оценки базовых моделей ИИ на задачах из реальных экзаменов (SAT, LSAT и др.).
📊 Цифры
🗓 Хронология
  1. 1979 Авария на втором энергоблоке АЭС Три-Майл-Айленд.
  2. 2019 Остановка первого энергоблока АЭС Три-Майл-Айленд по экономическим причинам.
  3. сентябрь 2021 Лучшие ИИ-модели показывают точность около 32% в написании кода.
  4. 2028 Ожидаемый старт поставок ядерной энергии для дата-центров Microsoft.
⚖️ Другая сторона
Искусственный интеллект Microsoft OpenAI GRIN MoE Sam Altman Three Mile Island