Раза Хабиб о внедрении AI: почему RLHF переоценен

🏗️ Разрыв между API и готовым продуктом: Уроки от Humanloop 2:12

Раза Хабиб, сооснователь Y Combinator-стартапа Humanloop, утверждает, что внедрение языковых моделей (LLM) — это задача, где 90-95% работы составляют не базовое обучение, а настройка и поддержка. Несмотря на кажущуюся простоту начала работы с API, создание надежного продукта требует глубокой работы с данными, сбора обратной связи, мониторинга ошибок и экспериментов.

Для многих компаний переход от прототипа к стабильному приложению остается главным барьером, преодоление которого требует не только инженерных навыков, но и инструментов для итерации.

🛠️ Инструментарий для разработчиков и Founders 6:11

Основная аудитория Humanloop — это технические специалисты, разработчики и фаундеры, стремящиеся превратить «сырые» возможности API в полезный продукт. Раза Хабиб выделяет три ключевые проблемы, с которыми сталкиваются команды:

Адаптация задачи: Форматирование бизнес-задач так, чтобы они стали понятны нейросети.
Оценка качества (Evaluation): Субъективность результатов затрудняет автоматизированную проверку, особенно в задачах вроде маркетингового копирайтинга или анализа резюме.
Кастомизация: Обучение модели контексту конкретной компании и частным данным, которыми она изначально не владеет.

По мнению Хабиба, работа в интерактивной среде (плейграундах) дает гораздо лучшее понимание возможностей модели, чем простое изучение бенчмарков.

📊 Роль обратной связи в жизненном цикле модели 33:09

Анализ того, насколько хорошо работает модель, становится критически важным для масштабируемых приложений. В Humanloop для этого используют комбинацию методов сбора данных:

Явные сигналы: «Лайки» или дизлайки от пользователей (аналогично ChatGPT), хотя их использует лишь небольшая часть аудитории.
Неявные действия: Анализ поведения пользователей — отправили ли они сгенерированный email, нажали ли кнопку «регенерация» или скопировали результат.
Текстовые исправления: Захват правок, которые пользователь вносит в сгенерированный текст перед использованием.

Хабиб подчеркивает, что инструменты мониторинга позволяют компаниям заметить эффект от смены модели практически в реальном времени, превращая догадки «стало вроде лучше» в измеримые показатели удовлетворенности пользователей.

📉 Fine-tuning против RLHF: Что нужно бизнесу сегодня 48:46

Раза Хабиб дает неожиданную характеристику текущему ажиотажу вокруг RLHF (обучения с подкреплением на основе отзывов людей): по его мнению, это «как секс в старшей школе — все говорят об этом, но почти никто этим на самом деле не занимается».

Аргументы гостя против спешки с RLHF:

Сложность процесса: Требуется создание надежной модели вознаграждения (reward model) и проведение этапов обучения, где легко совершить ошибку.
Эффективность простых решений: Для большинства бизнес-задач супервизорного дообучения (supervised fine-tuning) на небольшом наборе качественных данных (иногда достаточно 50 примеров) оказывается более чем достаточно.
Риски: RLHF может привести к «схлопыванию» (mode collapse) или снижению креативности модели, что критично для задач творческого письма.

При этом он прогнозирует, что дообучение моделей станет гораздо более распространенным в ближайшем будущем по мере удешевления инфраструктуры.

🤖 Будущее агентов и «агентная» проблема 56:28

Обсуждая текущие «агентные» системы, которые должны автономно выполнять цепочки действий, Хабиб отмечает их главную уязвимость: накопление ошибок.

Если каждый шаг в цепочке выполняется с точностью 90%, то при увеличении количества шагов вероятность успеха системы стремительно падает к нулю.
По мнению гостя, решение проблемы надежности агентов лежит не в человеческой обратной связи, а в системах «самоисцеления» (self-healing), где одна модель проверяет действия другой и при необходимости заставляет её переделать работу.

🚀 Прогнозы развития индустрии 1:18:09

Раза Хабиб выражает сдержанный оптимизм. Он ожидает, что AI станет мощным ускорителем научной работы — от медицины до новых материалов, а также кардинально снизит стоимость качественного образования за счет персонализированных тьюторов.

Тем не менее, он предупреждает о рисках концентрации политической власти и систематизации социальных предвзятостей, особенно в задачах автоматического скрининга кандидатов или принятия решений, влияющих на жизнь людей. С точки зрения бизнеса, он считает, что те компании, которые не внедрят LLM-технологии, рискуют безнадежно отстать от конкурентов, которые сделают это быстрее.