Эрик Сондхи: «Будущее ИИ — не просто крупнее, оно в вашем кармане»

Развитие искусственного интеллекта подошло к фундаментальной развилке, определяющей будущее всей ИТ-индустрии. Наряду с гигантскими облачными системами, контролируемыми узким кругом технологических гигантов, стремительно формируется альтернативная экосистема малого, открытого и энергоэффективного ИИ. На конференции AI Dev 25 в Нью-Йорке представитель компании ARM Эрик Сондхи подробно разобрал, почему именно локальные вычисления на конечных устройствах станут главным драйвером инноваций в ближайшие годы.

🗺️ Развилка в эволюции ИИ: Big AI против Small AI 0:07

Современный ландшафт искусственного интеллекта, по мнению Эрика Сондхи, разделился на два принципиально разных направления. С одной стороны находится так называемый «Большой ИИ» (Big AI) — крупные проприетарные фронтирные и фундаментальные модели, которые размещаются в облаке и контролируются очень небольшим числом технологических гигантов. С другой стороны расцветает «Малый ИИ» (Small AI) — локальные, эффективные альтернативы с открытым исходным кодом, способные работать непосредственно на пользовательских устройствах: от повседневных рабочих ноутбуков до смартфонов.

Спикер подчеркивает, что компания ARM не пытается искусственно противопоставить эти подходы друг другу, поскольку ее архитектура находится повсюду. Процессоры ARM сегодня обеспечивают работу практически каждого мобильного телефона, планшета iPad, множества ноутбуков, рабочих станций и микрокомпьютеров вроде Raspberry Pi. Более того, на протяжении последних шести лет компания активно расширяет присутствие в дата-центрах, снабжая вычислительной мощностью те самые крупные облачные платформы.

Тем не менее Эрик Сондхи указывает на жесткие ограничения Big AI, которые заставляют индустрию искать альтернативы. Среди ключевых недостатков облачного подхода он выделяет:

Чрезмерно высокую стоимость токенов, которая при масштабировании на уровне предприятия становится неподъемной для стартапов.
Постоянную зависимость от интернет-соединения и сетевые задержки (latency).
Закрытость экосистем, ведущую к жесткой привязке к конкретному поставщику (vendor lock-in).
Ограниченную прозрачность в отношении конфиденциальности, поскольку разработчикам приходится отправлять свои промты и код на чужие серверы, не зная, как именно эти данные будут использованы.

По словам представителя ARM, огромные универсальные модели превосходно справляются с общими задачами, однако для решения конкретных прикладных проблем бизнесу и разработчикам все чаще требуется специализированный ИИ.

📉 Преимущества и экономика малого ИИ 3:36

Стремительный взлет Small AI обусловлен бумом инноваций в сфере открытого ПО. Благодаря бурному развитию таких фреймворков, как PyTorch, Executor (ExecuTorch) и TensorFlow, на рынке регулярно появляются все более компактные, но при этом качественные модели. Локальное исполнение избавляет пользователя от привязки к интернету, позволяя продолжать разработку или использовать ИИ, например, во время поездок в транспорте, обеспечивая при этом мгновенный отклик и демократизируя процесс экспериментов.

Особое значение малый ИИ приобретает в контексте перехода к «агентурному ИИ» (Agentic AI) — автономным системам, способным самостоятельно рассуждать, планировать и выполнять многошаговые задачи в фоновом режиме. Эрик Сондхи утверждает, что крупные облачные модели плохо масштабируются в глубоких цепочках рассуждений из-за колоссальных вычислительных, финансовых и энергетических затрат на каждом промежуточном шаге. Малый ИИ, напротив, предлагает экономически жизнеспособную альтернативу для таких сложных рабочих процессов.

Разница в стоимости становится особенно очевидной при анализе многошаговых процессов, где затраты растут экспоненциально. По данным спикера, использование мейнстрим-моделей в облаке может обходиться в $25 и более за одну сложную цепочку рассуждений. Перенос вычислений на локальное устройство снижает эту стоимость практически до нуля, одновременно обеспечивая стократное улучшение показателей задержки. По прогнозам Сондхи, ситуация станет еще лучше по мере сближения микроархитектуры ускорителей ИИ непосредственно с центральным процессором, что откроет перед разработчиками принципиально новые возможности.

🎯 Преодоление кризиса эффективности ИИ-проектов 6:18

Доступность дешевых локальных вычислений способна решить одну из самых болезненных проблем современного технологического рынка. Спикер ссылается на недавнее исследование, согласно которому до 90% всех ИИ-проектов терпят неудачу, не принося компаниям значимого дохода, окупаемости инвестиций (ROI) или осязаемого бизнес-эффекта. Несмотря на колоссальные вливания капитала, запредельно высокая стоимость внедрения Big AI создает серьезные риски.

Сондхи сравнивает текущую ситуацию в индустрии со строительством все более сложной и дорогой мышеловки, притом что инженеры и бизнес зачастую даже не понимают, какого именно грызуна они пытаются поймать. Избыточное проектирование (overengineering) в сочетании с отсутствием четких критериев успеха приводит к закрытию инициатив, а быстрое масштабирование далеко не всегда означает умное масштабирование.

В качестве решения спикер предлагает опираться на философию Эндрю На (Andrew Ng), который ратует за использование ИИ для быстрого прототипирования без преждевременного пугающего масштабирования. Компактный ИИ, запущенный локально на рабочем компьютере, позволяет стартапам и командам:

Быстро тестировать гипотезы и оперативно выявлять неработающие элементы.
Своевременно совершать пивоты (смену бизнес-модели) с минимальными издержками.
Постоянно дорабатывать и адаптировать продукт, вместо того чтобы безвозвратно сжигать бюджеты.

В конечном счете это помогает создавать жизнеспособные и практичные решения, приносящие реальную ценность на повседневных устройствах конечных пользователей.

🛠️ Новые навыки разработчиков и вертикальная специализация 8:17

По мнению Эрика Сондхи, распространение малого ИИ кардинально изменит требования к компетенциям ИТ-специалистов. Популярный сегодня промпт-инжиниринг отойдет на второй план, уступив место глубокому специализированному файнтюнингу (тонкой настройке моделей). Эксперты в своих предметных областях (вертикалях) — даже те, кто не умеет писать код, например продакт-менеджеры — смогут конструировать автономных агентов под узкоспециализированные сценарии, опираясь на свои профессиональные знания.

В качестве примера такой вертикальной настройки Сондхи приводит работу со сложной корпоративной документацией. Представьте огромный массив неструктурированных документов: финансовую отчетность, нормативные акты SEC, изобилующие сложной терминологией, юридическими ограничениями и требованиями комплаенса. Профильный эксперт может взять малую модель ИИ и обучить ее специфике данных регуляторных правил. Такой сети не понадобятся 800 миллиардов параметров фронтирной модели — она сможет эффективно работать прямо на ноутбуке или быть встроенной в веб-браузер пользователя. При этом она будет выдавать четкие структурированные ответы, предупреждать о рисках нарушения комплаенса и готовить точные финансовые резюме.

Аналогичным образом Сондхи видит ценность применения экспертизы в областях DevOps и MLOps. Специалисты, умеющие разворачивать и поддерживать сложные программные комплексы, смогут применить свои навыки к оптимизации работы ИИ на малых локальных устройствах, что создаст для них мощное конкурентное преимущество на рынке труда.

💻 Аппаратная готовность: ИИ в кармане уже сегодня 11:36

Спикер заявляет, что необходимая аппаратная база и эффективные модели доступны уже сейчас. Ноутбуки на базе архитектуры ARM и современные edge-устройства обладают достаточной мощностью для локального запуска сетей объемом до 20 миллиардов параметров. Это касается как энергоэффективных хромбуков и макбуков, так и ПК под управлением Windows на базе чипов Snapdragon. Локальная работа гарантирует стопроцентную приватность данных: они не загружаются на внешние серверы, их невозможно перехватить или скопировать, а время инференса падает до субсекундных значений благодаря отсутствию сетевых задержек. Облачная зависимость перестает быть обязательным условием.

Чтобы проиллюстрировать реальность этих технологий, Эрик Сондхи продемонстрировал несколько практических кейсов:

Автономный агент на Raspberry Pi 5. Коллега спикера Доминик развернул полноценный ИИ-стек на базе доступного микрокомпьютера Raspberry Pi 5. Система использует модели Gemma 3 от Google DeepMind и Qwen 3, дополненные эмбеддингами для кэширования и модулями голосового ввода-вывода (speech-to-text-to-speech). Во время демонстрации агент продемонстрировал способность к самообучению: не сумев выполнить первую команду по поиску подключенного микрофона через системные файлы, он скорректировал запрос, успешно определил модель устройства (Anker Power 330) и зафиксировал это в памяти, чтобы в следующий раз выдать ответ мгновенно, без повторных размышлений.
Генерация музыки на смартфоне с моделью Stable Audio. В партнерстве со Stability AI компания ARM оптимизировала малую модель для генерации аудио. На примере Android-смартфона, переведенного в авиарежим, спикер показал, как приложение прямо на устройстве по текстовому описанию атмосферы и темпа (BPM) за секунды создает уникальный музыкальный бит. Модель и техническая документация проекта полностью открыты и выложены на Hugging Face, а с помощью готовых инструкций сгенерированные треки можно напрямую экспортировать в профессиональный софт Ableton Live.
Приложение для тестирования моделей в Google Play. Недавно команда ARM выпустила общедоступное чат-приложение для Android и Chromebook. Оно позволяет пользователям в несколько кликов скачивать популярные открытые малые модели (такие как Gemma 3 на 4 млрд параметров или Phi-3 Mini) и оценивать их производительность, скорость и качество ответов непосредственно на своем железе. Все обучающие материалы и исходный код для создания аналогичных приложений ARM выложила в открытый доступ.

🔮 Будущее архитектуры: На пути к «AI-Native» 17:39

Несмотря на впечатляющие текущие результаты, индустрия, по мнению Сондхи, находится лишь в самом начале пути. В будущих поколениях процессоров ARM запланированы глубокие архитектурные изменения, которые перенесут ускоренные вычисления еще ближе к CPU. В частности, речь идет о внедрении масштабируемых матричных расширений (Scalable Matrix Extensions — SME), которые уже появляются в топовых ноутбуках и вскоре станут стандартом для Android-устройств. Благодаря SME та же модель Stable Audio начинает работать в 30 раз быстрее.

График развития аппаратного обеспечения, согласно прогнозу представителя ARM, выглядит следующим образом:

Текущий этап: Первая волна потребительских устройств, ограниченно готовых к ИИ, и появление пилотных ИИ-чипов на рынке.
Следующий год: Массовый приход «ИИ-нативного» (AI-native) аппаратного дизайна во все сегменты электроники — от ноутбуков и смартфонов до встраиваемых систем и микроконтроллеров (например, платы от Alif Semiconductor с ИИ-ускорителем ARM U85 NPU).
Долгосрочная перспектива: Малый ИИ становится абсолютной нормой и дефолтной частью любого программного стека.

Финальным этапом эволюции Сондхи называет парадигму «ИИ повсюду» (AI everywhere), в рамках которой приложения будут использовать каскад нейросетей разного масштаба: огромные модели в облаке будут бесшовно взаимодействовать с локальными сетями на ноутбуках, смартфонах и крошечных IoT-датчиках (TinyML). Сам спикер поделился, что недавно приобрел ИИ-станцию Nvidia DGX (Spark) на базе 20 процессорных ядер ARM и графического чипа Blackwell именно для того, чтобы тестировать совместную работу нано-моделей на CPU параллельно с тяжелыми вычислениями на GPU.

💬 Ответы на вопросы слушателей 22:07

В рамках сессии вопросов и ответов Эрик Сондхи затронул ряд глубоких технических аспектов внедрения локального ИИ.

Тонкая настройка против квантования

Отвечая на вопрос о методах локального обучения моделей с учетом доменных знаний, спикер разграничил два понятия. Файнтюнинг отвечает за функциональную корректность модели в конкретной сфере (например, в финтехе), где эксперт управляет набором правил и тренировочных данных. Однако существует и вторая важнейшая часть — квантование (quantization), то есть оптимизация и сжатие весов модели для ее эффективного и быстрого исполнения на конкретном железе. Чтобы избавить разработчиков от необходимости быть экспертами в низкоуровневом программировании микроконтроллеров, ARM активно участвует в open-source инициативах. Так, при недавнем релизе ExecuTorch 1.0 все оптимизации ARM были интегрированы в кодовую базу фреймворка с первого дня, обеспечив нативную поддержку мобильных чипов и специализированных NPU для обработки сигналов.

Минимальный порог аппаратного обеспечения

Слушатели поинтересовались, насколько слабым может быть процессор, чтобы на нем все еще можно было запустить полезный ИИ. Сондхи рассказал о демонстрационных проектах ARM, где на обычных микроконтроллерах запускали сверхкомпактные модели для генерации уникальных детских сказок на основе ограниченной классической выборки. Подобные решения, по мнению спикера, идеально подходят для интеграции в интерактивные игрушки и настольные игры. Другой пример двухлетней давности — использование микроконтроллеров Renesas в интерфейсах «человек-машина» (HMI) на бытовых холодильниках и промышленных станках ЧПУ для мгновенного распознавания лиц и биометрической аутентификации пользователей без подключения к сети.

Проблема ограничений CPU и роль собственных GPU компании

Комментируя скепсис аудитории относительно того, что мощность центральных процессоров (CPU) по-прежнему остается главным бутылочным горлышком для ИИ, Сондхи возразил, что это ограничение во многом связано с недостаточной осведомленностью разработчиков о возможностях современных малых моделей. CPU действительно не предназначен для гигантских сетей, но он идеально подходит для средних моделей, работающих в связке с GPU (как в платформе Grace Blackwell), а также для оптимизации RAG-систем (поисково-ориентированной генерации) и сопутствующих задач инференса.

Что касается создания собственных мощных видеочипов, Сондхи напомнил, что ARM разрабатывает графические процессоры для мобильного сегмента, фокусируясь на экстремальной энергоэффективности. Нейросетевые технологии в их актуальных мобильных GPU сейчас применяются для суперсемплинга, апскейлинга графики в играх и оживления поведения неигровых персонажей (NPC), превращая их в полноценных автономных агентов. Спикер резюмировал, что ARM продолжит развивать специализированные вычислительные блоки, закрывая нарастающий спрос рынка на эффективное железо, работающее рука об руку с любыми графическими ускорителями.