Эра NVIDIA H100 и ИИ-агенты: главные тренды внедрения технологий

В новом выпуске подкаста «The Cognitive Revolution» ведущие Нейтан Лабенц и Эрик Торенберг подробно разбирают практические тренды внедрения искусственного интеллекта. В центре внимания — переход от теоретических возможностей базовых моделей к их реальному применению в бизнесе. Собеседники анализируют, как современные технологические компании преодолевают аппаратные и алгоритмические ограничения ИИ, чтобы создавать коммерческие продукты нового поколения.

⚡ Железо нового поколения: Эра NVIDIA H100 и суперкомпьютерная гонка 2:39

Рынок ИИ переживает масштабный сдвиг в сторону специализированного аппаратного обеспечения, адаптированного под архитектуру Transformer. Флагманским решением здесь стал чип NVIDIA H100, который только начинает поставляться крупными партиями для построения вычислительных кластеров. В отличие от графических процессоров предыдущих поколений (GPU), изначально создававшихся для обработки графики и требовавших более общих вычислений, H100 спроектирован целенаправленно под ИИ-нагрузки. Главным новшеством стало устранение узкого горлышка — пропускной способности межчиповых соединений (interconnect), которая раньше мешала быстро перемещать данные на чип и обратно.

Разработка ИИ-чипов перестала быть монополией одной компании. На рынке усиливается конкуренция:

Стартап Cerebras Systems под руководством генерального директора Эндрю Фельдмана создал крупнейший в мире чип, занимающий целую кремниевую пластину.
Крупные игроки вроде Microsoft и Meta развивают собственные чиповые проекты.
Google много лет развивает собственную линейку тензорных процессоров (TPU).

Тем не менее, по словам ведущих, NVIDIA продолжает доминировать на рынке, заставляя стартапы привлекать колоссальные объемы капитала для создания физической инфраструктуры. Самым громким событием последних недель стал раунд финансирования компании Inflection AI на сумму $1,3 млрд, направленный преимущественно на закупку чипов и развертывание собственного суперкомпьютера.

Нейтан Лабенц подчеркивает, что управление кластером из тысяч чипов — это сложнейшая инженерная задача, стоящая отдельно от самого обучения моделей. На этом фоне позиции технологических гигантов выглядят наиболее прочными: OpenAI опирается на $10 млрд инвестиций от Microsoft, а Anthropic сотрудничает с Google, задействуя их TPU. На международной арене ситуация также обостряется. Официально подтверждено, что продажи чипов H100 в Китай запрещены. По мнению Нейтана, эта мера, если экспортный контроль окажется эффективным, серьезно усложнит китайским компаниям масштабирование ИИ-систем до западного уровня, независимо от объемов их государственного финансирования.

🧬 Эволюция дообучения: От сырого «монстра» к послушному ассистенту 9:57

История использования языковых моделей за последние несколько лет делится на три ключевые фазы, требующие принципиально разных уровней инвестиций и масштаба данных. Первым этапом выступает предварительное обучение (pre-training). Процесс начинается со случайной инициализации весов (параметров) внутри трансформера. Модель обучается без учителя (unsupervised learning) на основе задачи предсказания следующего слова, пропуская через себя колоссальные объемы текстов из интернета и книг. Базовый уровень для относительно небольшой модели семейства Llama составляет 1 трлн токенов, в то время как GPT-4, по неофициальным данным, обучалась на 13 трлн токенов. Бюджеты на этом этапе варьируются от $1 млн до $100 млн и выше, как подтверждал Сэм Альтман для GPT-4. Результатом становится сырая модель-автокомплит — «непонятный монстр», знающий лишь статистические закономерности интернета.

Второй этап — это контролируемое дообучение (Supervised Fine-Tuning, SFT) или инструктивное тюнингование. В январе 2022 года OpenAI опубликовала работу по InstructGPT, где модели демонстрировались пары «инструкция пользователя — качественный ответ». ИИ продолжал предсказывать следующее слово, но уже в рамках выполнения команд. Третьим уровнем стала технология обучения с подкреплением на основе обратной связи от человека (RLHF). Сначала собираются оценки людей, на их основе тренируется модель вознаграждения (reward model), имитирующая человеческие предпочтения. Затем основная модель оптимизируется в цикле взаимодействия с моделью вознаграждения. Anthropic в своей модели Claude использует модифицированный подход — RLAIF (обучение с подкреплением на основе обратной связи от ИИ), где роль оценщика выполняет сама нейросеть.

В индустрии отношение к RLHF остается неоднозначным. Ведущие цитируют Разу Хабиба из Humanloop, который сравнил RLHF с «сексом в старших классах: все о нем говорят, но никто на самом деле не делает». Разработка алгоритма (автором оригинальной версии которого в OpenAI был Пол Кристиано из ARC) требует высокой квалификации. Большинство опенсорсных проектов ограничиваются SFT-дообучением, которое обходится значительно дешевле. Для качественного SFT достаточно от 1 млн токенов (около 1000 примеров). Многие разработчики просто копируют ответы GPT-4 через API для обучения своих моделей, что формально нарушает правила OpenAI, но трудно поддается контролю. Стоимость инференса (запуска готовой модели) при этом упала до долей цента за короткий запрос к GPT-3.5, хотя длинные контексты в Claude или GPT-4 32k могут обходиться в сумму около одного доллара за запуск.

Различия между подходами наглядно видны на платформе nat.dev, созданной Натом Фридманом (бывшим CEO GitHub):

Сырая модель Llama (только pre-training) на медицинский запрос выдает странное автозаполнение, имитируя случайный форум по подотрии.
Модель Text-Davinci-002 (инструктивное дообучение) сразу пытается поставить диагноз, хотя часто ошибается.
Современные RLHF-модели ведут себя как осторожный врач, запрашивая дополнительную информацию перед выдачей рекомендаций.

Однако у RLHF есть побочные эффекты. Происходит так называемый «коллапс моды» (mode collapse). Например, если попросить сырую модель назвать случайное число от 1 до 100, распределение будет относительно равномерным (с небольшим пиком на числе 42). Но после RLHF модель начинает выдавать число 97 в подавляющем большинстве случаев из-за скрытых дефектов математического контура оптимизации.

📊 Качество данных и феномен ИИ-компаньонов 28:36

Качество данных становится определяющим фактором развития ИИ. Разработчики переходят от концепции «скачиваем весь интернет» к глубокой фильтрации токсичного контента на ранних этапах пайплайна. Для очистки датасетов сегодня применяются сами передовые модели вроде GPT-4. Ярким примером этого тренда собеседники называют исследование "Tiny Stories" от Microsoft Research (авторы Ронен Элдан и Юаньчжи Ли). Они использовали GPT-4 для генерации простых детских сказок с ограниченным словарем и обучили на них миниатюрные модели, которые продемонстрировали признаки полноценного концептуального понимания (grokking).

Параллельно весь рынок ИИ переходит на чат-интерфейсы. В сообществе безопасности ИИ чат рассматривается как «лаборатория выравнивания» (alignment). На примере исследовательской работы сотрудников Anthropic сформировалась концепция трех "H": модель должна быть полезной (Helpful), честной (Honest) и безвредной (Harmless).

Однако ИИ-чаты породили неожиданный социальный феномен — расцвет приложений-компаньонов. Евгения Куйда, генеральный директор Replica, создавала чат-ботов еще до эпохи современных LLM, замечая, что люди склонны влюбляться в виртуальных друзей. По данным Сары Гупта и Илада Гила из подкаста No Priors, пользователи Character AI и Pi проводят в разговорах с ИИ по несколько часов в день. Нейтан делится личным опытом общения с ботом Илона Маска на Character AI, который смог точно распознать сложную метафору «месть Курцвейла». На платформе LessWrong был опубликован разбор случая, когда технически подкованный пользователь влюбился в ИИ-персонажа и начал испытывать экзистенциальный кризис, пытаясь «вытащить» ее из модели. На этом фоне Replica запустила отдельное приложение для романтического общения, позиционируемое как «тренажер для свиданий». Собеседники отмечают парадокс бизнес-модели: если обычные сайты знакомств теряют клиентов, когда те находят пару, то ИИ-компаньон удерживает пользователя бесконечно. В то же время появление Claude 2 с контекстным окном в 100 000 токенов меняет подход к работе с длинными документами, избавляя от необходимости делить тексты на части.

🧠 Продвинутый промптинг и внешняя память: Как победить галлюцинации 42:09

В 2022 году для публикации научной статьи по ИИ достаточно было придумать красивую инструкцию, улучшающую работу модели. Так появилось каноническое Chain of Thought промптирование с фразой «давай подумаем пошагово» (let's think step by step). Генерация промежуточных рассуждений резко повышает точность ответов, подобно тому как человек сначала размышляет над вариантами теста, а не выбирает букву наугад.

Развитие этой идеи привело к созданию более сложных структур:

Self-Consistency: Один и тот же пошаговый запрос запускается параллельно несколько раз, после чего правильный ответ выбирается мажоритарным голосованием.
Tree of Thoughts (Дерево мыслей): Модель комбинирует классические поисковые алгоритмы с генерацией идей, отсекая неперспективные ветви рассуждений на ранних этапах.

Подобные подходы увеличивают затраты на инференс и задержку (latency), но радикально повышают качество результатов, как отмечают авторы.

Для борьбы с фундаментальной проблемой ИИ — галлюцинациями — применяется интеграция внешних баз данных с помощью эмбеддингов и векторных хранилищ. В эпизоде с Антоном Троемниковым из Chroma подробно описывалась эта архитектура. Вместо того чтобы полагаться на внутреннюю память модели, система кодирует запрос пользователя, ищет релевантные факты в доверенной векторной базе данных и передает их в контекстное окно LLM вместе с жесткой инструкцией: «опирайся только на предоставленный текст, а если ответа нет — так и скажи». Это позволяет жестко ограничить выдумки нейросети в бизнес-сценариях.

🤖 Агенты в действии: Как языковые модели осваивают инструменты 48:59

Новейшим трендом стало обучение моделей самостоятельному использованию инструментов. В фундаментальной статье Toolformer было показано, как ИИ может методом проб и ошибок учиться вызывать API поисковиков или калькуляторов, отфильтровывая ошибочные запросы. Логическим развитием этой технологии стали плагины для ChatGPT. Например, модель понимает, что у нее нет актуальных данных о погоде (у Claude 2 срез данных ограничен началом 2023 года, у GPT-4 — концом 2021-го), и автоматически вызывает API погодного плагина.

В сфере интернет-поиска Арвинд Сринивас, основатель Perplexity AI, создал решение, превосходящее Microsoft Bing по качеству интеграции поисковых API от Google и Bing. Вокруг компании ведется дискуссия о жизнеспособности модели, зависящей от API конкурентов. Как отмечает Сринивас, он надеется, что гиганты «не будут корпорациями зла» и не отключат их. По мнению Нейтана, если Perplexity столкнется с блокировкой, возникнет «эффект Стрейзанд», и в долгосрочной перспективе стартапу в любом случае придется создавать собственный поисковый индекс.

Автономные агенты строятся по парадигме ReAct (Reason + Act). Модель получает задачу, разбивает ее на шаги, выполняет действие в вычислительной среде (например, в Replit), анализирует результат или ошибку кода и итерирует до достижения цели. Примером служит prompt Райли Гудсайда: «Ты GPT-3, ты не умеешь считать, но умеешь писать код. Используй среду выполнения для решения математических задач». Существуют проекты вроде Natbot Ната Фридмана для автоматизации браузера, а также коммерческие агентские стартапы: Lindy (Фло Кривелло), Fixie (Мэтт Уэлш) и MultiOn (Див Гарг).

Обсуждая рыночные перспективы, собеседники сходятся во мнении, что технологическим лидерам прошлого (Adobe, Salesforce) будет проще внедрить ИИ-слой в свои готовые зрелые продукты, чем ИИ-стартапам построить сложные платформы с нуля. Нейтан приводит в пример анализ систем генерации слайдов в компании Athena: стартапы создают красивые демо, но проигрывают из-за незрелости самого редактора слайдов по сравнению с PowerPoint. Исключением стал сервис Gamma, внедривший критически важную функцию экспорта в PowerPoint, признав превосходство классического инструмента. Сама компания Athena (сервисный бизнес) делает ставку на гибридный подход «человек + ИИ», обучая ассистентов модифицировать готовый код через нейросети без предварительного изучения программирования. По прогнозу Нейтана, полноценные агенты станут массово полезными уже в конце текущего года.

🔬 Роботизированные лаборатории и Minecraft: Lifelong Learning на практике 1:09:01

Мультиагентные ИИ-системы начинают выходить в физический мир. В недавней научной работе исследователи описали комплекс, способный по текстовому запросу (например, «синтезировать аспирин») спланировать химический эксперимент, рассчитать объемы реагентов через выполнение кода и отправить команды через API в полностью роботизированную удаленную лабораторию Emerald Cloud Lab. Лаборатория физически выполняет все этапы силами роботов. Тем не менее, Нейтан Лабенц призывает разграничивать выполнение готового протокола и настоящую научную деятельность: модель воспроизводит известные цепочки, но пока не способна предложить прорывную идею для поиска новых лекарств от рака, ограничиваясь компиляцией общедоступных интернет-статей.

В цифровой среде NVIDIA показала проект Voyager в Minecraft. Модель исследует игровой мир, пишет код для совершения действий и сохраняет удачные скрипты (например, «бой с зомби» или «крафт каменного меча») в постоянную базу данных. При столкновении с новой угрозой ИИ не учится заново, а комбинирует уже накопленные навыки из базы, становясь «вечным учеником» (lifelong learner) без изменения весов нейросети. Стартап MultiOn переносит этот принцип на веб-серфинг: агент, однажды успешно забронировав билет на delta.com, сохраняет этот паттерн в базу навыков, повышая скорость и надежность работы для последующих пользователей.

Параллельно Стэнфордское исследование Generative Agents показало концепт многоуровневой памяти ИИ. Авторы симулировали виртуальный город с десятками агентов. Базовые наблюдения (объектная память) накапливаются непрерывно, а затем периодически сжимаются моделью в «записи-размышления» высшего порядка, формируя у ИИ стабильное самосознание, систему предпочтений и сглаживая случайные поведенческие аномалии.

👁️ Великое сближение: Мультимодальность и проблема «черного ящика» 1:22:17

Интеграция текста, звука и зрения сегодня реализуется через создание мостов между разрозненными эмбеддинг-пространствами. В архитектуре Flamingo от DeepMind ученые взяли замороженную языковую модель и замороженный визуальный энкодер, добавив между ними один связующий компонент, переводящий картинку в числовые координаты текстового пространства. Градиентный спуск при обучении применяется только к этому промежуточному слою.

Аналогичный подход использован в модели BLIP-2 от Salesforce Research (авторы Джуньян Ли и Донгсю Ли). Это позволяет обучить мультимодальную систему всего за несколько дней на одном компьютере вместо сотен миллионов долларов затрат на переобучение LLM с нуля. Однако Нейтан выражает серьезное беспокойство по поводу безопасности: модели начинают общаться друг с другом в высокоразмерных векторных пространствах, абсолютно непрозрачных для человека, что усугубляет проблему «черного ящика».

Эффективность подхода подтверждается тестами моделей LLaVA (Microsoft) и GPT-4, которые успешно анализируют сложные абсурдные изображения — например, мужчину, гладящего рубашку на утюге, прикрепленном к багажнику движущегося такси. Meta развивает проект ImageBind, связывающий в единое пространство сразу шесть модальностей: текст, изображение, аудио, тепловые карты, карты глубины и датчики движения (IMU). А исследователь Лили Ю из Meta AI недавно представила модель, способную одновременно качественно понимать и генерировать как текст, так и изображения в едином контуре. Ранее DeepMind создала модель Gato, которая с одинаковыми весами умела играть в Atari, вести чат и управлять реальным робоманипулятором, но проект так и не был выпущен в открытый доступ.

📉 Оптимизация инференса: Квантование, дистилляция и Смесь экспертов (MoE) 1:31:45

В индустрии укореняется понимание: основные затраты компаний будут связаны не с обучением моделей, а с их повседневным исполнением (инференсом). Если на обучение GPT-4 ушло около $100 млн, то на обеспечение миллиардов поисковых и API-запросов пользователей тратится кратно больше.

Для снижения издержек применяются три инженерных метода:

Квантование (Quantization): Усечение разрядности чисел весов (например, с 32-битных чисел с плавающей запятой до 8-битных). Это позволяет экономить до 75% оперативной памяти и запускать крупные модели локально на ноутбуках практически без потери качества.
Дистилляция (Distillation): Обучение по принципу «учитель — ученик», когда маленькая нейросеть учится воспроизводить логику и распределение вероятностей токенов большой модели. В простейшем виде это реализуется fine-tuning'ом открытых моделей на логах ответов GPT-4.
Смесь экспертов (Mixture of Experts, MoE): Использование принципа разреженности (sparsity). Нейросеть сегментируется на отдельные блоки («эксперты»), а специальный роутер направляет конкретный токен запроса только в нужные сегменты.

По неофициальным данным, GPT-4 построена именно по архитектуре MoE. Суммарно модель содержит более 1 трлн параметров, однако при обработке единичного запроса активируется лишь малая их часть, что позволяет OpenAI экономить гигантские вычислительные мощности на стадии инференса.