Хамель Хусейн: «Эвалы — это самый высокорентабельный навык в разработке ИИ»

Lenny's Podcast 106 тыс. 1 ч 46 мин 5 мин 25.09.2025
Главное

В современной индустрии искусственного интеллекта на смену «интуитивной» разработке приходит строгая методология. Хамель Хусейн и Шрейя Шанкар в беседе с Ленни Рачицким доказывают, что создание систем оценки (Evals) стало самым высокорентабельным навыком для создателей ИИ-продуктов. В этом материале — подробный разбор того, как перестать полагаться на «вайб-чеки» и перейти к системному улучшению ИИ-агентов через анализ ошибок и автоматизированных судей.

🎯 Что такое эвалы и почему они важнее юнит-тестов 5:43

Эвалы (evals) — это способ систематического измерения и улучшения ИИ-приложений . По определению Хамеля Хусейна, это не просто тестирование, а полноценная аналитика данных в контексте больших языковых моделей (LLM). В отличие от традиционной разработки ПО, где поведение системы предсказуемо, ИИ-агенты работают в стохастической среде с огромной поверхностью атаки и неочевидными сценариями сбоев.

Шрейя Шанкар подчеркивает разницу между эвалами и привычными юнит-тестами:

Главная проблема современного ИИ-билдинга — зависимость от «вайб-чеков» (vibe checks), когда разработчик просто прогоняет пару запросов и субъективно оценивает ответ как «нормальный» . По мнению экспертов, такой подход становится неуправляемым при росте приложения . Эвалы же позволяют создать сигнал обратной связи, на основе которого можно проводить контролируемые эксперименты.

🛠 Анализ ошибок: с чего начинается создание ИИ-продукта 10:58

В качестве живого примера Хамель Хусейн демонстрирует работу ИИ-ассистента для управляющих недвижимостью компании Nurture Boss . Приложение помогает обрабатывать лиды, бронировать встречи и отвечать на вопросы жильцов через чат, текст и голос.

Процесс создания эвалов начинается не с написания кода, а с анализа ошибок (Error Analysis). Хусейн показывает работу в инструменте обсервабильности Brain Trust (также упоминаются аналоги: Phoenix Arise, LangSmith) :

  1. Просмотр трейсов (Traces): Изучение полной цепочки событий — от системного промпта до вызова инструментов (tool calls) и финального ответа .
  2. Выявление скрытых проблем: Например, пользователь спрашивает о наличии однокомнатной квартиры с кабинетом. ИИ отвечает, что такой нет, и прощается. С точки зрения логики LLM — ответ верный, но с точки зрения продукта — это провал, так как агент должен был предложить альтернативу или передать диалог человеку .
  3. Фиксация галлюцинаций: В одном из примеров ИИ предложил виртуальный тур, хотя компания его не проводит . Без внимательного чтения логов такие ошибки невозможно заметить .

По словам Шрейи Шанкар, попытка автоматизировать этот этап с помощью другого ИИ — главная ошибка новичков . LLM без контекста бизнеса часто оценивает плохие с точки зрения продукта ответы как «хорошие» .

👑 Концепция «Благосклонного диктатора» и открытое кодирование 25:29

Хамель Хусейн ввел термин «Благосклонный диктатор» (Benevolent Dictator) для описания процесса принятия решений в эвалах .

Эксперты рекомендуют просмотреть вручную минимум 100 трейсов . Это создает «теоретическое насыщение» — момент, когда вы перестаете встречать новые типы ошибок .

📊 Аксеальное кодирование: как превратить хаос в метрики 31:40

После того как собраны сотни ручных заметок, в игру вступает ИИ для их синтеза. Этот процесс называется аксеальным кодированием (Axial Coding) .

  1. Категоризация: Все разрозненные заметки (опен-коды) загружаются в LLM (например, в Claude или ChatGPT) с промптом сгруппировать их в категории .
  2. Создание таксономии ошибок: В примере Nurture Boss выделились такие категории: проблемы с передачей диалога человеку, ошибки форматирования, невыполненные обещания перезвонить .
  3. Количественный анализ: С помощью сводных таблиц (Pivot Tables) подсчитывается частота каждой категории .

Этот этап позволяет приоритизировать работу: если 70% жалоб связаны с «дерганым» потоком сообщений в SMS, именно это нужно исправлять в первую очередь, а не заниматься «галлюцинациями», которые случаются в 2% случаев .

⚖️ LLM как судья: автоматизация субъективного качества 48:38

Когда ключевые типы ошибок определены, разработчики создают LLM-судью (LLM as a Judge). Это специальный промпт для модели, которая будет автоматически помечать наличие конкретной ошибки в новых диалогах .

Ключевые принципы хорошего LLM-судьи:

⚔️ Дебаты об эвалах: Anthropic против системного подхода 1:10:04

В сообществе ИИ разгорелись споры после того, как инженеры Claude Code (инструмент от Anthropic) заявили, что они «не делают эвалы, а просто полагаются на вайбы» .

Шрейя Шанкар и Хамель Хусейн скептически относятся к таким заявлениям, выдвигая свои контраргументы:

  1. Фундамент: Команды прикладных инструментов стоят на плечах исследователей базовых моделей, которые прогнали тысячи бенчмарков (MMLU, HumanEval) .
  2. Скрытая работа: Под «вайбами» топ-инженеры часто подразумевают очень глубокий, но не формализованный анализ ошибок, который они делают в силу своей сверхвысокой квалификации .
  3. Специфика кода: В разработке ИИ-инструментов для написания кода сам разработчик является доменным экспертом. Он может «собачиться» (dogfooding) на своем продукте весь день . Для медицинских или юридических ИИ такой подход невозможен — там нужны строгие внешние эвалы .

🚀 Бизнес-эффект и роль OpenAI 1:20:15

Обсуждая недавнее приобретение компании Statsig (платформа для A/B тестирования) гигантом OpenAI, спикеры сошлись во мнении, что это подтверждает важность дата-центричного подхода . Эвалы становятся частью A/B тестов в продакшене.

По прогнозу Шрейи Шанкар, в ближайшее время фокус сместится с общих бенчмарков (как модель решает задачи по математике) на продуктовые метрики . Главный ROI эвалов — это возможность быстро находить и исправлять «песчаные» ошибки, которые мешают удержанию пользователей .

Основные советы для тех, кто начинает путь в эвалах:

💬 Цитаты

«Эвалы — это самый высокорентабельный вид деятельности, которым вы можете заниматься при создании ИИ-приложений.»

Хамель Хусейн 00:05

«Цель не в том, чтобы сделать эвалы идеально. Цель — действенно улучшить ваш продукт.»

Шрейя Шанкар 01:26

«Шкала от 1 до 5 — это уловка, чтобы не принимать решение. Вам нужен бинарный судья.»

Хамель Хусейн 52:47
👥 Спикеры
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Трейс (Trace)
Полный лог взаимодействия пользователя с ИИ, включая все промежуточные шаги и вызовы инструментов.
Open Coding
Процесс присвоения произвольных текстовых меток или заметок фрагментам данных в ходе анализа.
Axial Coding
Группировка разрозненных заметок в более крупные концептуальные категории или типы ошибок.
Stochastic system
Система, поведение которой носит случайный, вероятностный характер, что типично для LLM.
📊 Цифры
🗓 Хронология
  1. 2023 Шрейя Шанкар и коллеги начинают исследование 'Who Validates the Validator?'.
  2. 2024 Курс по эвалам становится №1 на платформе Maven по выручке.
  3. Сентябрь 2024 OpenAI приобретает платформу A/B тестирования Statsig.
⚖️ Другая сторона
Искусственный интеллект Hamel Husain Shreya Shankar AI Evals OpenAI Anthropic