ИИ-революция: как Llama 3 и чипы Groq меняют правила игры против NVIDIA и OpenAI

Wes Roth 147 тыс. 25 мин 8 мин 20.04.2024
Главное

Релиз языковой модели Llama 3 от компании Meta радикально изменил расстановку сил в индустрии искусственного интеллекта, практически ликвидировав монополию закрытых проприетарных систем вроде GPT-4. Одновременно с этим технологический стартап Groq со своей специализированной аппаратной архитектурой LPU заявил о готовности перехватить у NVIDIA лидерство на рынке серверного вывода ИИ-моделей. Известный ИТ-аналитик Уэс Рот подробно анализирует этот технологический прорыв, грядущие регуляторные ограничения со стороны правительств и стратегии выживания ИИ-стартапов в условиях неизбежной экспансии гигантов.

🚀 Прорыв Llama 3: открытый код на уровне GPT-4 0:13

Модель Llama 3 от Meta совершила стремительный рывок, поднявшись на верхние строчки авторитетных ИИ-лидербордов и уступая теперь только флагманской закрытой системе GPT-4 от OpenAI. Позади осталась даже признанная модель Claude 3 Opus от Anthropic. Уэс Рот выделяет три ключевых фактора, которые делают это событие шокирующим для всей ИТ-индустрии:

В ИИ-сообществе обостряется тактическая борьба за внимание пользователей. По прогнозу доктора Джима Фана из NVIDIA, OpenAI анонсирует свою следующую флагманскую модель GPT-5 еще до того, как Meta официально выпустит полноценную 400-миллиардную версию Llama 3. Уэс Рот считает, что OpenAI традиционно использует стратегию встречных анонсов, стремясь любой ценой удерживать за собой статус технологического лидера.

Секрет высокой эффективности столь компактной open-source модели кроется в подходе к обучающим данным. Бывший исследователь ИИ в Meta и NVIDIA Крис Пэкстон утверждает, что качество данных сегодня решает все. Эту точку зрения подтверждает и глава Meta Марк Цукерберг, заявляя об использовании колоссальных объемов тщательно курируемого контента высокого качества.

Появление бесплатной модели такого уровня означает, что условная «GPT-4 на дому» стала реальностью. Потребители получили возможность собирать относительно недорогие домашние серверы для запуска сложнейших автономных агентов. Уэс Рот предполагает, что системы вроде ИИ-разработчика Devin теперь можно будет разворачивать на локальном оборудовании стоимостью от 3000 долларов, полностью автоматизируя написание кода, создание веб-сайтов и управление интернет-магазинами без облачных подписок.

Первые тесты энтузиастов показывают жизнеспособность этой концепции. При запуске Llama 3 (70B) локально через инструмент Ollama на компьютере с процессором Apple M2 Ultra (76-ядерный GPU стоимостью около 7000–8000 долларов) скорость генерации составляет порядка 14 токенов в секунду. На более скромном ноутбуке с процессором M3 Max стоимостью 3200 долларов скорость падает до 8 токенов в секунду. Уэс Рот констатирует, что это пока медленнее облачных версий, но вполне пригодно для работы, тогда как младшая версия модели на 8 миллиардов параметров работает молниеносно.

⚡ Феномен Groq: сверхскоростной вывод ИИ 4:33

Настоящую революцию в скорости работы открытых моделей демонстрирует аппаратное обеспечение от компании Groq. Основатель HyperWrite AI Мэтт Шумер заявляет, что Llama 3 на чипах Groq выдает невероятные 300 токенов в секунду, опережая по отзывчивости закрытую Claude 3 Opus.

Такая производительность радикально меняет пользовательский опыт и открывает новые рынки. По мнению Уэса Рота, индустрия вплотную приблизилась к созданию полноценных голосовых роботов, способных вести диалог по телефону без раздражающих задержек. Технология позволяет развернуть автономный колл-центр, который будет круглосуточно обзванивать клиентов, бронировать встречи и обрабатывать заявки за считанные центы.

В качестве практического примера приводится демонстрация ИИ-агента для фитнес-клуба от разработчика ИИ-решений AI Jason. Система мгновенно перезванивает клиенту после отправки заявки, ведет естественный диалог, выявляет потребности в похудении и прямо по телефону запрашивает данные кредитной карты для оформления подписки.

Уникальность Groq заключается в отказе от традиционной архитектуры графических процессоров (GPU) в пользу специализированных языковых процессоров (LPU — Language Processing Unit). Уэс Рот отмечает, что в этот проект инвестировал известный миллиардер Чамат Палихапития, чьи технологические прогнозы, по словам ведущего, отличаются поразительной точностью, несмотря на неоднозначную репутацию инвестора на фондовом рынке.

Генеральный директор Groq Джонатан Росс сообщает об огромном интересе к платформе со стороны ИТ-индустрии. Спустя всего 30 дней с момента запуска консоли для разработчиков на ней зарегистрировалось более 75 000 создателей ПО. Для сравнения Росс приводит исторический факт: компании NVIDIA в свое время потребовалось семь лет, чтобы сформировать экосистему из 100 000 разработчиков.

🛠️ История создания LPU и архитектурный вызов NVIDIA 9:39

Корни технологического преимущества Groq уходят в опыт работы его основателя в стенах Google. Джонатан Росс вспоминает, что ключевым моментом для старта проекта стала публикация документов о секретных процессорах Google TPU (Tensor Processing Unit). Увидев, что Google строит собственное железо, инвестор Чамат Палихапития мгновенно выписал Россу чек на инвестиции — компания Groq была юридически зарегистрирована уже после получения финансирования.

Главной идеей Росса было решение проблемы масштабирования программного обеспечения. В процессе работы над суперкомпьютером AlphaGo в подразделении DeepMind он обнаружил удивительный феномен: система на базе 48 процессоров TPU обыграла конфигурацию из 170 графических карт GPU в 99 матчах из 100 при абсолютно одинаковом софте. Это доказало, что специализированная архитектура дает кратный прирост эффективности на задачах вывода (инференса).

Джонатан Росс выделяет фундаментальный недостаток бизнес-модели NVIDIA:

В отличие от конкурентов, архитектура LPU от Groq изначально создавалась под горизонтальное масштабирование и объединение сотен и тысяч чипов в единый вычислительный кластер, ориентированный на обработку потоковых языковых задач.

📈 Масштабы инфраструктурной войны гигантов 13:56

Рынок ИИ-моделей постепенно превращается в товарный (commodity). По наблюдениям Джонатана Росса, качество решений различных ИТ-гигантов начинает выравниваться, и компании стремятся иметь возможность в любой момент переключаться между Llama, Mistral или продуктами Anthropic в зависимости от текущих тарифов. Однако главным препятствием для повсеместного внедрения ИИ остаются астрономические затраты на поддержание вычислительной инфраструктуры.

Для решения этой проблемы технологические гиганты скупают оборудование в беспрецедентных масштабах. В частности, Meta планирует до конца текущего года сосредоточить в своем распоряжении вычислительные мощности, эквивалентные 650 000 ускорителей NVIDIA H100.

Уэс Рот обращает внимание на ироничный исторический факт: Марк Цукерберг закупил эти мощности вовсе не ради обучения больших языковых моделей. Meta направляла капитальные затраты на закупку GPU для развития рекомендательной системы коротких видео Reels во время кризиса падения акций компании, когда Уолл-стрит жестко критиковала Цукерберга за чрезмерные траты. В итоге эта инфраструктурная база случайно сделала Meta главным игроком в гонке LLM.

Руководство Groq намерено развернуть агрессивную конкуренцию на рынке железа. План компании включает следующие этапы:

📊 Недообученные модели и регуляторные тупики 17:52

Технический анализ архитектуры Llama 3 указывает на колоссальный скрытый потенциал современных технологий. Известный ИИ-исследователь Андрей Карпати подчеркивает, что обучение младшей 8-миллиардной модели на базе 15 триллионов токенов — это беспрецедентный шаг, превышающий стандартные нормы обучения почти в 75 раз.

Согласно официальным заявлениям Meta, даже при таких объемах модель все еще не достигла плато сходимости. Андрей Карпати делает вывод, что практически все современные LLM на рынке катастрофически недообучены — примерно в 100–1000 раз. Это означает, что индустрия может совершить качественный рывок вперед просто за счет более длительного обучения компактных моделей, не раздувая их физический размер.

Однако на пути этого прогресса встают жесткие государственные ограничения. Силу ИИ-моделей принято измерять в совокупном объеме вычислений (FLOPS). Текущая версия Llama 3 (70B) требует вычислительной мощности на уровне 9

Уэс Рот ожидает, что выход крупнейшей версии Llama 3 вызовет волну ответных действий со стороны правительств, поскольку свободное распространение систем такой мощности начнет выходить за рамки дозволенного регуляторами.

🚜 Стратегия Сэма Альтмана: как выжить стартапам 21:07

Удешевление и ускорение вычислений порождают серьезные опасения у бизнеса. Существует устойчивый мем о том, что «OpenAI уничтожает стартапы», выпуская новые базовые функции, которые мгновенно обесценивают продукты сторонних разработчиков.

Глава OpenAI Сэм Альтман в своем выступлении разделил ИИ-стартапы на две категории в зависимости от их базовой стратегии:

  1. Ориентированные на статичные модели: создатели строят продукт в расчете на то, что текущие возможности базовой модели (например, GPT-4) останутся неизменными. По мнению Альтмана, 95% таких компаний обречены на ликвидацию, так как при выходе GPT-5 их надстройки будут «раздавлены» встроенным функционалом.
  2. Ориентированные на прогресс: разработчики строят бизнес из предположения, что базовые модели будут улучшаться прежними экспоненциальными темпами. Такие проекты только выиграют от релиза новых версий систем.

Сэм Альтман рекомендует инвесторам и фаундерам задавать себе один простой вопрос: «Будет ли ваша компания рада 100-кратному улучшению базового ИИ?». В качестве примера успешного симбиоза он приводит шведский финтех-сервис Klarna, который интегрирует ИИ для персонализации покупок и поддержки клиентов, с каждым обновлением нейросетей увеличивая собственную маржинальность.

Уэс Рот прогнозирует, что будущее ИТ-решений лежит за мультиагентными системами. Исследования подтверждают: чем больше ИИ-агентов работают совместно над одной задачей, тем выше качество финального результата. Благодаря связке сверхбыстрых чипов Groq, выдающих огромную скорость на легких моделях, и открытых технологий Llama 3, бизнес получает дешевый инструмент для запуска целых «цифровых отделов», способных решать комплексные задачи полностью автономно.

💬 Цитаты

«Если вы строите что-то на GPT-4... мы вас просто раздавим, потому что у нас есть миссия.»

Сэм Альтман 22:37

«1,5 миллиона LPU означают, что у Groq будет больше мощностей для генеративного ИИ, чем у всех облачных провайдеров вместе взятых.»

Джонатан Росс 15:57
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
LPU (Language Processing Unit)
Специализированный процессор, оптимизированный исключительно для быстрого вывода и обработки языковых моделей.
GPU (Graphics Processing Unit)
Графический процессор, традиционно используемый для обучения и инференса нейросетей.
FLOPS
Единица измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой выполняется в секунду.
Инференс
Процесс работы уже обученной нейросети, когда она генерирует ответы на запросы пользователей.
Токен
Базовая единица текста (слово, часть слова или символ), которой оперирует языковая модель.
📊 Цифры
🗓 Хронология
  1. 2023 год NVIDIA поставила на рынок около 500 000 флагманских ускорителей H100.
  2. 15 апреля Сэм Альтман озвучил две ключевые стратегии для выживания ИИ-стартапов в условиях обновления моделей.
  3. Конец текущего года Meta планирует довести инфраструктуру до эквивалента 650 000 чипов H100, а Groq развернет первые 100 000 LPU.
  4. Конец следующего года Groq планирует развернуть 1,5 миллиона процессоров LPU для глобального инференса.
⚖️ Другая сторона
Искусственный интеллект Llama 3 Groq Nvidia GPT-4