Microsoft и OpenAI представили стратегию масштабирования суперкомпьютеров и ИИ-моделей

На конференции Microsoft Build состоялся ряд важнейших технологических анонсов, раскрывающих масштабы текущей революции в сфере искусственного интеллекта. Руководители Microsoft и OpenAI представили стратегию развития суперкомпьютерных мощностей, новые возможности мультимодальной модели GPT-4o, линейку малых моделей Phi-3 и интеграцию автономного ИИ-разработчика Devin в экосистему Azure. В рамках мероприятия глава OpenAI Сэм Альтман и основатель Khan Academy Сал Хан обсудили практическое применение этих технологий, от создания коммерческих приложений до предоставления бесплатных инструментов автоматизации для учителей США.

🐋 Масштабирование суперкомпьютеров: от «акулы» до «синего кита» 1:02

Технологический стек Microsoft и OpenAI демонстрирует экспоненциальный рост вычислительных мощностей, необходимых для обучения ИИ-платформ следующего поколения. Директор по технологиям Microsoft Кевин Скотт наглядно описал эволюцию суперкомпьютеров компании, используя в качестве маркеров масштаба размеры морских обитателей.

В 2020 году Microsoft построила свой первый ИИ-суперкомпьютер для OpenAI, на базе которого была обучена модель GPT-3; в цепочке масштабирования этот комплекс условно соответствовал размерам большой белой акулы. Уже в 2022 году была развернута новая система, превосходящая предыдущую в три раза — размером с косатку, которая использовалась для обучения GPT-4. Текущий развернутый комплекс инфраструктуры по своим масштабам сопоставим с синим китом, что в пять раз превышает объемы системы класса «косатка». По словам Кевина Скотта, этот «китовый» суперкомпьютер в настоящий момент полностью загружен работой по созданию следующего поколения ИИ-моделей и расширению спектра их базовых возможностей.

🧠 Сэм Альтман о будущем ИИ, GPT-4o и «золотой лихорадке» разработчиков 2:36

Главный исполнительный директор OpenAI Сэм Альтман отметил феноменальную скорость адаптации технологий сообществом разработчиков, подчеркнув, что миллионы специалистов уже создают продукты на базе платформы. По воспоминаниям Альтмана, во время релиза API для GPT-3 многие считали технологию узкоспециализированной, однако текущие темпы внедрения GPT-4 и новейшей мультимодальной модели GPT-4o не имеют аналогов в истории технологического сектора. Руководитель OpenAI подчеркнул, что компания стремится сделать искусственный интеллект сквозным и легкодоступным слоем, который можно интегрировать в любой продукт или сервис.

Отвечая на вопрос о том, каких изменений стоит ожидать в ближайшие месяцы, Сэм Альтман высказал мнение, что ИИ-модели будут демонстрировать стабильный рост общего интеллекта по всем направлениям. Этот процесс будет аналогичен переходам между версиями GPT-3, GPT-3.5 и GPT-4. По прогнозам Альтмана, параллельно с ростом интеллекта будет повышаться надежность и безопасность систем, поскольку сама модель становится умнее, а инструменты контроля вокруг нее совершенствуются. В качестве примера технологического прорыва он привел модель GPT-4o, в которой стоимость обработки данных снизилась в два раза, а скорость работы увеличилась вдвое. Сэм Альтман также признался, что новый голосовой режим (voice mode) стал для него самого неожиданно приятным открытием с точки зрения пользовательского опыта.

Для аудитории разработчиков, насчитывающей 5000 человек в зале конференции и около 200 000 онлайн-зрителей, Сэм Альтман сформулировал две ключевые рекомендации.

Его советы разработчикам:

Наступило наиболее перспективное время для создания стартапов и технологических продуктов со времен мобильного бума и зарождения интернета. Альтман считает текущий период фундаментальным сдвигом платформ, который продлится всего несколько лет, поэтому не стоит откладывать реализацию планов или ждать выхода следующих моделей.
Использование ИИ не освобождает от необходимости строить устойчивый бизнес и создавать долгосрочную ценность. По мнению Альтмана, ИИ выступает мощным катализатором, но он не отменяет классические правила ведения бизнеса, о чем легко забыть в условиях «золотой лихорадки».

Касаясь темы безопасности, Альтман подчеркнул, что при приближении к полноценному сильному искусственному интеллекту (AGI) уровень сложности задач и требования к фундаментаческим исследованиям будут расти. Разработка систем мониторинга, выравнивания (alignment) и регулирования политик ИИ рассматривается OpenAI и Microsoft как обязательный фильтр перед выпуском любых коммерческих решений на рынок.

💻 Интеграция Devin и эволюция стека Microsoft Co-pilot 11:55

По определению Кевина Скотта, наиболее ценные технологические компании и инновации возникают в моменты фазовых переходов, когда задачи переходят из разряда «невозможных» в категорию «просто сложных». Одним из таких прорывов стало официальное объявление о стратегическом партнерстве Microsoft со стартапом Cognition Labs. Их флагманский продукт Devin, позиционируемый как автономный ИИ-инженер, теперь полностью интегрирован с облачной платформой Azure, и вся его инфраструктура будет развернута на мощностях Microsoft. Кевин Скотт отметил, что Devin способен взять на себя выполнение рутинных и трудоемких инженерных задач, таких как реплатформинг и миграция программных приложений.

Сравнивая текущие процессы с историческими вехами, Скотт провел параллели с ПК-революцией, подгоняемой законом Мура, и интернет-революцией, объединившей вычислительные узлы в глобальную сеть. Сегодня главным драйвером выступает экспоненциальное масштабирование ИИ-систем за счет увеличения объемов данных и вычислительной мощности. Согласно внутренней статистике Microsoft, за прошедший год компания развернула больше приложений на базе генеративного ИИ, чем любой другой конкурент в отрасли.

Текущие приоритеты развития экосистемы Microsoft включают:

Оптимизацию базовой ИИ-инфраструктуры для непрерывного снижения стоимости вычислений и повышения скорости отклика.
Развитие единого комплексного стека Co-pilot, предоставляющего разработчикам гибкий выбор моделей и сопутствующих сервисов мониторинга.
Объединение разрозненных специализированных ИИ-помощников (в Windows, Bing, Edge, системах продаж и поддержки) в единый логический Microsoft Co-pilot, способный бесшовно учитывать контекст данных пользователя вне зависимости от конкретного приложения.

В контексте оптимизации затрат Кевин Скотт привел точные показатели эффективности модели GPT-4o: стоимость текстовых запросов снизилась в 12 раз, а скорость генерации первого токена увеличилась в 6 раз по сравнению с оригинальной версией GPT-4, выпущенной полтора года назад. Достижение таких результатов стало возможным благодаря сквозной оптимизации на всех уровнях — от специализированных кремниевых чипов и архитектуры дата-центров до глубокой программной настройки аппаратного обеспечения.

В качестве подтверждения возможностей модели была продемонстрирована видеозапись, где сотрудница Дженнифер в режиме реального времени с помощью камеры смартфона показала GPT-4o ошибку в Python-коде (использование метода extend вместо append привело к дроблению строки на отдельные символы). Модель мгновенно идентифицировала баг голосом, подсказала верный метод, и исправленный алгоритм отработал корректно.

📱 Революция малых моделей: Phi-3 на мобильных устройствах 23:10

Параллельно с развитием тяжелых флагманских систем Microsoft активно разрабатывает линейку малых языковых моделей (SLM) под названием Phi. Как пояснил Кевин Скотт, в индустрии сформировалось понятие «эффективной границы» (efficient frontier), отражающее компромисс между размером модели (что напрямую влияет на стоимость инференса, задержки и возможность локального запуска) и качеством ее ответов. В то время как для максимального качества требуются гигантские фронтирные модели уровня GPT-4, малые модели становятся незаменимы в условиях ограниченных вычислительных ресурсов.

Скотт напомнил историческую хронологию развития технологий:

Ноябрь 2022 года — релиз оригинального ChatGPT на базе GPT-3.5, который поразил мировую общественность своими возможностями.
Март 2023 года — выпуск GPT-4, поднявший планку качества и способности решать сложные аналитические задачи на новый уровень.

По утверждению технического директора Microsoft, текущая версия малой модели Phi-3, оптимизированная для мобильных платформ, способна работать локально на обычном смартфоне и выдавать ответы, эквивалентные по качеству уровню GPT-3.5 полуторагодовалой давности. Скотт уточнил, что Phi-3 не может напрямую конкурировать с GPT-4, однако ее применение экономически и технически оправдано при жестких инфраструктурных ограничениях.

🎓 Персонализированное образование: партнерство с Khan Academy 26:06

Возможности малых моделей открывают путь к повсеместному внедрению адаптивного ИИ. В качестве стратегического примера Microsoft продемонстрировала сотрудничество с некоммерческой организацией Khan Academy. Стороны исследуют потенциал применения модели Phi-3 Medium, прошедшей специализированную тонкую настройку (fine-tuning) для преподавания математики. Особенность данного ИИ-ассистента заключается в том, что он функционирует как профессиональный тьютор: вместо выдачи готового ответа на задачу ИИ наводящими вопросами ведет учащегося к самостоятельному поиску решения.

Основатель Khan Academy Сал Хан рассказал, что организация, начавшаяся 20 лет назад с его личных уроков для кузенов, долгое время пыталась масштабировать индивидуальный подход с помощью статичного софта и видеолекций. Однако традиционные цифровые инструменты достигли своего технологического предела. По словам Хана, ситуация коренным образом изменилась в конце лета 2022 года, когда Грег Брокман и Сэм Альтман продемонстрировали ему раннюю версию GPT-4. Осознавая риски использования нейросетей для списывания и академического мошенничества, команда Khan Academy приняла решение трансформировать эти уязвимости в защитные функции, внедрив строгие контентные ограничения в своего учебного ассистента Khanmigo.

Сал Хан подчеркнул, что создание образовательных ИИ-приложений требует принципиально новых подходов к разработке, отличных от детерминированного программирования. Разработчикам необходимо внедрять системы непрерывного тестирования (evals) и валидации ответов на соответствие академическим стандартам. В рамках нового партнерства с Microsoft было объявлено о запуске продвинутых инструментов для учителей, которые теперь предоставляются абсолютно бесплатно всем преподавателям на территории США для автоматизации рутины и повышения продуктивности.

В качестве личного примера Кевин Скотт поделился историей о своей 15-летней дочери, ученице девятого класса, которая самостоятельно использовала бесплатную версию ChatGPT для анализа сложных научных публикаций по биохимии, что позволило ей значительно ускорить процесс освоения предмета. Сал Хан согласился с этим примером, добавив, что если мотивированные дети способны двигаться вперед сами, то для большинства остальных учащихся критически важно присутствие в классе вовлеченного взрослого — учителя, чью работу и призваны облегчить новые бесплатные инструменты.