# Раза Хабиб о внедрении AI: почему RLHF переоценен

Источник: https://www.youtube.com/watch?v=EKKJrRWOU30
Канал: The Cognitive Revolution
Опубликовано: 27.04.2023

---

## 🏗️ Разрыв между API и готовым продуктом: Уроки от Humanloop
[[JUMP:2:12]]

Раза Хабиб, сооснователь Y Combinator-стартапа Humanloop, утверждает, что внедрение языковых моделей (LLM) — это задача, где 90-95% работы составляют не базовое обучение, а настройка и поддержка. Несмотря на кажущуюся простоту начала работы с API, создание надежного продукта требует глубокой работы с данными, сбора обратной связи, мониторинга ошибок и экспериментов. 

Для многих компаний переход от прототипа к стабильному приложению остается главным барьером, преодоление которого требует не только инженерных навыков, но и инструментов для итерации.

### 🛠️ Инструментарий для разработчиков и Founders
[[JUMP:6:11]]

Основная аудитория Humanloop — это технические специалисты, разработчики и фаундеры, стремящиеся превратить «сырые» возможности API в полезный продукт. Раза Хабиб выделяет три ключевые проблемы, с которыми сталкиваются команды:

*   **Адаптация задачи:** Форматирование бизнес-задач так, чтобы они стали понятны нейросети.
*   **Оценка качества (Evaluation):** Субъективность результатов затрудняет автоматизированную проверку, особенно в задачах вроде маркетингового копирайтинга или анализа резюме.
*   **Кастомизация:** Обучение модели контексту конкретной компании и частным данным, которыми она изначально не владеет.

По мнению Хабиба, работа в интерактивной среде (плейграундах) дает гораздо лучшее понимание возможностей модели, чем простое изучение бенчмарков.

### 📊 Роль обратной связи в жизненном цикле модели
[[JUMP:33:09]]

Анализ того, насколько хорошо работает модель, становится критически важным для масштабируемых приложений. В Humanloop для этого используют комбинацию методов сбора данных:

1.  **Явные сигналы:** «Лайки» или дизлайки от пользователей (аналогично ChatGPT), хотя их использует лишь небольшая часть аудитории.
2.  **Неявные действия:** Анализ поведения пользователей — отправили ли они сгенерированный email, нажали ли кнопку «регенерация» или скопировали результат.
3.  **Текстовые исправления:** Захват правок, которые пользователь вносит в сгенерированный текст перед использованием.

Хабиб подчеркивает, что инструменты мониторинга позволяют компаниям заметить эффект от смены модели практически в реальном времени, превращая догадки «стало вроде лучше» в измеримые показатели удовлетворенности пользователей.

### 📉 Fine-tuning против RLHF: Что нужно бизнесу сегодня
[[JUMP:48:46]]

Раза Хабиб дает неожиданную характеристику текущему ажиотажу вокруг RLHF (обучения с подкреплением на основе отзывов людей): по его мнению, это «как секс в старшей школе — все говорят об этом, но почти никто этим на самом деле не занимается».

Аргументы гостя против спешки с RLHF:

*   **Сложность процесса:** Требуется создание надежной модели вознаграждения (reward model) и проведение этапов обучения, где легко совершить ошибку.
*   **Эффективность простых решений:** Для большинства бизнес-задач супервизорного дообучения (supervised fine-tuning) на небольшом наборе качественных данных (иногда достаточно 50 примеров) оказывается более чем достаточно.
*   **Риски:** RLHF может привести к «схлопыванию» (mode collapse) или снижению креативности модели, что критично для задач творческого письма.

При этом он прогнозирует, что дообучение моделей станет гораздо более распространенным в ближайшем будущем по мере удешевления инфраструктуры.

### 🤖 Будущее агентов и «агентная» проблема
[[JUMP:56:28]]

Обсуждая текущие «агентные» системы, которые должны автономно выполнять цепочки действий, Хабиб отмечает их главную уязвимость: накопление ошибок.

*   Если каждый шаг в цепочке выполняется с точностью 90%, то при увеличении количества шагов вероятность успеха системы стремительно падает к нулю.
*   По мнению гостя, решение проблемы надежности агентов лежит не в человеческой обратной связи, а в системах «самоисцеления» (self-healing), где одна модель проверяет действия другой и при необходимости заставляет её переделать работу.

### 🚀 Прогнозы развития индустрии
[[JUMP:1:18:09]]

Раза Хабиб выражает сдержанный оптимизм. Он ожидает, что AI станет мощным ускорителем научной работы — от медицины до новых материалов, а также кардинально снизит стоимость качественного образования за счет персонализированных тьюторов.

Тем не менее, он предупреждает о рисках концентрации политической власти и систематизации социальных предвзятостей, особенно в задачах автоматического скрининга кандидатов или принятия решений, влияющих на жизнь людей. С точки зрения бизнеса, он считает, что те компании, которые не внедрят LLM-технологии, рискуют безнадежно отстать от конкурентов, которые сделают это быстрее.