Чип Хьюен: как создавать ИИ-продукты, которые действительно работают

В новом выпуске Lenny's Podcast известный специалист по искусственному интеллекту Чип Хьюен (Chip Huyen) делится практическим опытом создания ИИ-продуктов и оптимизации рабочих процессов. Обсуждая разницу между ожиданиями индустрии и реальной практикой, эксперт объясняет, почему гонка за новейшими моделями уступает место качественной подготовке данных и системному мышлению. Этот глубокий технический разбор помогает понять, куда движется сфера AI-инженерии и как компаниям пережить «кризис идей» в эпоху тотальной автоматизации.

📊 Мифы и реальность оптимизации AI-приложений 4:34

В ИИ-сообществе долгое время не утихали обсуждения вирусного графика Чип Хьюен из LinkedIn, в котором она противопоставила иллюзии разработчиков реальным факторам успеха ИИ-приложений. По её наблюдениям, создатели продуктов часто фокусируются на вещах, которые дают минимальный практический эффект.

Основные заблуждения разработчиков (что, как они думают, улучшает приложения):

Постоянное отслеживание последних новостей сферы ИИ.
Внедрение самых свежих агентурных фреймворков (agentic frameworks).
Мучительный выбор идеальной векторной базы данных.
Регулярная оценка того, какая модель на рынке сейчас «умнее».
Тонкая настройка (fine-tuning) базовой модели по любому поводу.

Реальные факторы, которые действительно улучшают ИИ-приложения:

Регулярное общение с конечными пользователями.
Построение более надёжной и отказоустойчивой платформы.
Тщательная и качественная подготовка данных.
Оптимизация сквозных (end-to-end) рабочих процессов.
Написание более качественных и выверенных промптов.

Чип Хьюен задаётся резонным вопросом: зачем тратить колоссальное количество времени на отслеживание новостей и споры о технологиях (например, выбирая между протоколом MCP и традиционными агентами), если разница в эффективности между оптимальным и неоптимальным решением зачастую ничтожна?

Гость подкаста рекомендует оценивать «переключаемость» технологии: если интеграция нового, не прошедшего боевое крещение инструмента намертво привязывает вас к нему и потребует огромных усилий для замены в будущем, от его внедрения лучше воздержаться.

🧠 Анатомия моделей: от предобучения до тонкой настройки 7:10

Понимание внутренних процессов работы больших языковых моделей (LLM) избавляет от иллюзий. Чип Хьюен разделяет процесс создания работающей модели на несколько ключевых этапов.

[Image explaining the difference between pre-training and post-training in LLMs]

Первый этап — это контролируемая тонкая настройка (Supervised Fine-Tuning, SFT), основанная на демонстрационных данных. Эксперты составляют идеальные пары «промпт — ответ», и модель обучается подражать человеку. В open-source сообществе этот процесс часто заменяют дистилляцией: вместо найма дорогих экспертов разработчики берут ответы топовых закрытых моделей и обучают маленькую модель имитировать их поведение. По мнению гостьи, умение модели имитировать чужие хорошие ответы принципиально отличается от способности превзойти оригинал, и между этими уровнями лежит огромная пропасть.

С технической точки зрения языковое моделирование — это кодирование статистической информации о языке. Если человек говорит «мой любимый цвет...», то появление слова «синий» статистически гораздо более вероятно, чем слова «стол». Чип напоминает, что эта идея уходит корнями в работу Клода Шеннона 1951 года об энтропии английского языка.

В качестве иллюстрации эксперт приводит детективный рассказ о Шерлоке Холмсе «Пляшущие человечки». Знаменитый сыщик взломал шифр, зная, что в английском языке чаще всего встречается буква E, а значит, самый частотный рисунок человечка и есть эта буква. Модели работают схожим образом, но не на уровне букв или целых слов, а на уровне токенов — промежуточных языковых единиц, которые позволяют сократить словарь, сохраняя морфологический смысл (например, разделяя слово podcasting на podcast и ing).

Огромное значение для итоговой производительности имеет стратегия сэмплинга (выбора токенов) — заставить ли ИИ всегда выбирать самый вероятный вариант или позволить ему быть более креативным. Чип считает этот аспект крайне недооценённым. Сегодня фронтир-лаборатории практически исчерпали массивы текстовых данных для предобучения (pre-training) и активно переходят на аудио и видео. Именно поэтому фокус сместился на пост-обучение (post-training) — этап, который определяет уникальное поведение и характер модели.

🤝 Обучение с подкреплением и экономика разметки данных 15:20

Чтобы заставить модель выдавать качественные результаты, применяется обучение с подкреплением (Reinforcement Learning). Инженерам необходимо давать модели сигналы о том, хорош её ответ или плох. Самым известным методом является RLHF — обучение с подкреплением на основе отзывов людей.

Людям тяжело выставлять объективные оценки по абсолютной шкале, но они отлично справляются со сравнениями. Чип Хьюен приводит понятную аналогию с музыкой:

«Если вы попросите меня поставить оценку песне, я не музыкант, я запутаюсь: сегодня поставлю 6 из 10, а через месяц забуду и поставлю 4. Но если вы дадите мне две песни и спросите, какую из них я бы предпочёл включить на вечеринке в честь дня рождения, я выберу сразу».

На основе таких человеческих сравнений обучается модель вознаграждения (reward model), которая затем автоматически оценивает ответы основной LLM. Помимо человеческого фидбека, сегодня активно развиваются RLAIF (подкрепление на основе ИИ-отзывов) и проверяемые вознаграждения (verifiable rewards). Последние идеальны для математических или кодинговых задач: если ожидаемый ответ уравнения равен 42, а модель выдала другое число, система мгновенно фиксирует ошибку без участия человека.

Для создания качественных датасетов разработчики фронтир-моделей нанимают профильных экспертов: бухгалтеров, юристов, физиков. Чип Хьюен указывает на парадоксальную экономическую модель, сложившуюся на этом рынке: существует всего несколько гигантских лабораторий-покупателей (OpenAI, Anthropic и др.) и огромное количество стартапов, размечающих данные. Лаборатории имеют безграничные бюджеты, но разметчики полностью зависят от двух-трех клиентов. Гостья признаётся, что такая рыночная диспропорция вызывает у неё лёгкое беспокойство, ведь у стартапов нет ценового рычага, и им приходится жестко конкурировать друг с другом, снижая цены.

📊 Эвристика оценок: метрики против «вайб-чека» 22:22

Оценка качества (evals) ИИ-продуктов — одна из самых обсуждаемых и в то же время весёлых тем в индустрии. Чип Хьюен разделяет эту задачу на два лагеря:

Для создателей приложений: оценка конкретного продукта (например, определение, хорош ли кастомный чат-бот).
Для разработчиков моделей: проектирование специализированных тестов под конкретную задачу (например, создание критериев и датасетов для оценки навыков художественного письма модели).

В индустрии ведётся спор: нужны ли строгие автоматические оценки или можно полагаться на «вайб-чек» (интуитивное ощущение разработчика от работы с ИИ). Чип Хьюен подходит к этому прагматично, через призму окупаемости инвестиций (ROI). Если в компании запущен ИИ-функционал, клиенты довольны, а трафик растёт, бизнесу бывает тяжело выделить двух инженеров на построение сложной системы эвалов ради гипотетического улучшения метрик с 80% до 85%. Руководству проще направить эти ресурсы на запуск новой фичи.

Тем не менее, Чип настаивает на жестком, «тираническом» контроле качества, если продукт работает на масштабе, а ошибки ИИ могут повлечь катастрофические последствия для бизнеса. Хорошие эвалы не просто измеряют точность, они помогают находить неочевидные провалы в конкретных сегментах пользователей.

В качестве примера сложной оценки она приводит бота для глубоких исследований (deep research). Для составления качественного отчёта бот должен сгенерировать поисковые запросы, собрать и агрегировать информацию. Оценивать нужно каждый шаг:

Разнообразие и релевантность поисковых запросов (чтобы запросы не дублировали друг друга, как «подкаст Ленни» и «подкаст Ленни месяц назад»).
Перекрытие результатов (насколько глубоко и широко бот охватил страницы выдачи).
Качество агрегации данных.

🗄️ Секреты RAG и важность подготовки данных 31:58

Технология RAG (Retrieval-Augmented Generation — генерация, дополненная поиском) прочно укрепилась в архитектуре современных приложений. Идея проста: модели нужен контекст для точного ответа. Первые подобные эксперименты проводились ещё в 2017 году, когда ИИ обучали извлекать факты из Википедии для улучшения ответов на вопросы.

Однако в коммерческой разработке данные редко выглядят как структурированные статьи из Википедии. Документы компаний часто огромны и имеют сложную структуру. Если разбить длинный текст на куски (чанки), контекст теряется. Например, если в начале документа указано, что речь идёт о Ленни, а в середине имя больше не упоминается, то изолированный кусок текста из середины система просто не сможет найти по запросу «Ленни».

Разработчики используют изощренные методы предобработки данных:

Добавление к каждому чанку контекстуальной информации (метаданных и краткого содержания всего документа).
Генерация гипотетических вопросов: с помощью ИИ для каждого куска текста создаётся список вопросов, на которые он может ответить. При запросе пользователя система ищет совпадения по этим вопросам.
Переформатирование исходных текстов (например, транскриптов подкастов) в формат «вопрос — ответ».
Создание специального аннотационного слоя для ИИ. Человек-эксперт обладает здравым смыслом и понимает контекст (например, шкалу температур на графике), а ИИ нужно прямым текстом объяснить, что означает «температура равна 1» в конкретной библиотеке кода.

Чип Хьюен убеждена, что львиная доля успеха RAG-систем зависит именно от качественной подготовки данных, а не от выбора модной векторной базы данных, которая влияет преимущественно на задержку (latency), но не на качество ответов.

🏢 Внедрение ИИ в компаниях и динамика инженерных команд 38:53

Чип Хьюен делит корпоративные ИИ-инструменты на два типа: инструменты для внутренней продуктивности (кодинг-ассистенты, чат-боты для ответов на вопросы о декретном отпуске или медицинской страховке) и внешние продукты (чат-боты для бронирования отелей или продаж). Компании охотнее инвестируют в ботов для продаж, так как там легко измерить прямую бизнес-метрику — конверсию. С внутренней продуктивностью всё гораздо сложнее.

Интересное кадровое противоречие гостья подкаста замечает на уровне руководства:

«Если вы спросите линейных менеджеров, что они выберут: оплатить всей команде дорогие подписки на ИИ-ассистентов или получить дополнительную штатную единицу (headcount), почти все выберут человека. Им важно расширять команду ради карьерного роста. Но если вы спросите вице-президента (VP), он выберет ИИ-помощников, потому что мыслит бизнес-метриками и эффективностью расходов».

Отношение инженеров к ИИ-инструментам (таким как Cursor) тоже неоднородно. Чип поделилась историей эксперимента в компании своего знакомого, где 30–40 инженеров разделили на три группы: лучшие, средние и отстающие. Половине инженеров из каждой группы дали доступ к Cursor.

Результаты оказались примечательными: наибольший прирост продуктивности продемонстрировали именно сильнейшие, высокомотивированные инженеры — ИИ помог им решать задачи еще быстрее. Худшие же сотрудники просто включили «автопилот», генерировали плохой код и даже не пытались в нём разобраться. При этом в других компаниях фиксируют обратный тренд: опытные синьоры сильнее всего сопротивляются ИИ-инструментам, так как имеют высокие стандарты и считают код от ИИ посредственным.

Из-за этого меняется структура разработки. Некоторые компании переходят на модель, где код пишут джуниоры совместно с ИИ, а синьоры занимаются исключительно ревью пулл-реквестов (PR) и созданием архитектурных гайдлайнов. Возникает логичный вопрос: как в таком мире джуниору вырасти до уровня синьора, если у него забирают базовую практику написания кода?

🛠️ Системное мышление и эволюция роли инженера 51:44

Чип Хьюен соглашается с позицией профессора Стэнфорда Мердада Сами (Merdad Sami) и пионера ИИ Эндрю Ына (Andrew Ng): компьютерные науки — это не изучение Java или Python. Кодинг — лишь средство достижения цели. Настоящая суть CS заключается в системном мышлении и способности решать проблемы. ИИ может автоматизировать написание отдельных функций, но задачи от этого становятся только масштабнее, а потребность в понимании архитектуры никуда не исчезает.

Современные ИИ-ассистенты отлично справляются с написанием приложений с нуля или изолированными задачами, но пасуют перед отладкой (debugging) в крупных существующих кодовых базах. Чип рассказала личную историю: при развертывании приложения на новом хостинге она столкнулась с назойливым багом. ИИ-помощник бесконечно предлагал менять переменные окружения, переписывать функции и менять JS-код. В итоге Чип решила сама прочитать документацию хостинга и обнаружила, что нужная ей фича просто недоступна на её текущем бесплатном тарифном плане. ИИ не обладал холистическим, целостным видением системы и искал проблему совершенно не в том компоненте.

Именно системный подход разделяет две роли:

ML-инженер (Machine Learning Engineer): самостоятельно строит, обучает и оптимизирует внутреннюю архитектуру моделей.
AI-инженер (AI Engineer): использует готовые предобученные модели через API как строительные блоки для создания конечных продуктов. Появление этой роли кардинально снизило барьер входа в индустрию и открыло колоссальный рынок для новых приложений.

🔮 Прогнозы на будущее и преодоление «кризиса идей» 57:21

В ближайшие 2–3 года Чип Хьюен ожидает несколько фундаментальных сдвигов в индустрии. Во-первых, произойдет размытие границ между департаментами. Например, написание ИИ-эвалов требует понимания как архитектуры (инженерия), так и поведения пользователей (продукт). Во-вторых, компании продолжат автоматизировать и забирать внутрь задачи, которые раньше массово отдавались на аутсорс.

Что касается самих моделей, Чип относится к лагерю реалистов: скачкообразный, шокирующий рост базовых моделей (какой мы видели при переходе от GPT-2 к GPT-3 и GPT-4) замедляется. Разница между последующими поколениями становится предметом дискуссий. Основной прогресс смещается в плоскость пост-обучения, интерфейсов и мультимодальности (работа с аудио и видео).

Развитие голосовых ИИ-ассистентов наталкивается на серьезные инженерные вызовы. В отличие от текста, в голосе критически важна задержка (latency). Классическая цепочка «перевод голоса в текст — генерация текстового ответа — озвучка текста» слишком медленная. Инженеры бьются над сквозными моделями «голос-в-голос» (voice-to-voice). Кроме того, ИИ сложно научить естественному перебиванию (interruption detection) — понимать, когда звук «мхм» от человека означает мимолётное согласие, а когда — полноценное желание перебить робота. К слову, это классическая задача машинного обучения, а не проблема больших языковых моделей.

Парадокс современности заключается в том, что индустрия находится в глубоком «кризисе идей». У людей есть невероятные инструменты, позволяющие за час написать код, создать дизайн и развернуть сайт, но они не знают, что именно создавать. Чип связывает это с чрезмерной специализацией общества, из-за которой люди теряют видение картины целиком.

Чтобы найти идею для ИИ-продукта, эксперт предлагает простое тактическое упражнение:

«В течение недели внимательно следите за своей повседневной рутиной. Фиксируйте всё, что вас раздражает или вызывает фрустрацию. Если вы заметите повторяющуюся боль у себя или у коллег — это идеальная точка для создания микро-инструмента на базе ИИ».

Ленни подтвердил этот тезис личным примером: устав от невозможного извлечения картинок, загруженных в Google Docs, он с помощью ИИ за вечер написал утилиту VIP-кодинга, которая скачивает все изображения из документа по одной ссылке.

⚡ Блиц-опрос и творческие инсайты Чип Хьюен 1:11:54

В финале встречи Чип Хьюен приоткрыла дверь в свой внутренний мир, ответив на серию личных вопросов Ленни.

Книги, которые сильнее всего повлияли на её мировоззрение:

«Эгоистичный ген» Ричарда Докинза. Помог Чип определиться с вопросом, хочет ли она иметь детей. Книга дала понимание, что наши тела — лишь функции генов, стремящихся к выживанию. Но также книга ввела понятие «мемов» — идей, которые позволяют человеку жить вечно в культуре.
«Из третьего мира в первый» Ли Куан Ю. Потрясающий учебник по системному мышлению государственного масштаба, описывающий, как за 25 лет превратить отстающую страну в передовую державу с помощью грамотной публичной политики.

Что касается индустрии развлечений, Чип Хьюен призналась, что смотрит много фильмов и сериалов для анализа сценарного мастерства, так как недавно она продала свой первый художественный драматический роман. Особенно её впечатлил китайский исторический сериал «Покорение дворца Яньси» (Story of Yanxi Palace). Работа над книгой научила её важному отличию технического текста от художественного: в технологиях важны холодные рациональные аргументы, а в литературе — уязвимость героев. Идеальный и слишком логичный персонаж вызывает у читателей отторжение, ему необходимы слабости, чтобы аудитория могла сопереживать.

Жизненное кредо Чип Хьюен звучит как освобождающий нигилизм: «В конце концов, ничто не имеет значения». Понимание того, что через миллиард лет никто не вспомнит о наших ошибках, провалах или упущенных контрактах, не пугает её, а дарует абсолютную свободу пробовать новое, рисковать и создавать удивительные вещи здесь и сейчас.