Скотт Даунс: «Мы даем тренерам ИИ костюмы Железного человека»

Обучение современных больших языковых моделей (LLM) часто представляют как процесс поглощения колоссальных объемов данных мощными графическими процессорами. Однако за кулисами этого процесса стоит «армия» людей, которые обучают нейросети вести себя корректно и фактическая точность ответов ИИ во многом зависит от качества их работы.

Технический директор компании Invisible Technologies Скотт Даунс (Scott Downes) в интервью каналу Eye on AI подробно рассказал о механизмах обучения с подкреплением на основе отзывов людей (RLHF), будущем рынка труда и о том, почему «гуманитарный» подход сегодня важен для технологий как никогда раньше.

🛠 От литературы к коду: Путь CTO нового типа 1:31

Скотт Даунс называет себя «CTO другого типа», подчеркивая, что его путь в технологии не был линейным . Начав писать код в 14 лет, в университете он изучал литературу, а в 20 лет работал на радио, был музыкантом и дизайнером . По его словам, именно эпоха доткомов сделала востребованным широкий кругозор, когда выпускники филологических и театральных факультетов массово переходили в технологический сектор .

Этот бэкграунд сформировал философию Даунса:

Технологии наиболее эффективны, когда они «невидимы» и служат для усиления человеческого потенциала .
Процесс разработки ПО перестал быть изолированным «производством дисков в коробках» и стал пронизывать все бизнес-процессы .
Главная метрика успеха технологического решения — способность объяснить его суть простому человеку (например, собственной матери) .

🧠 Invisible Technologies: Гибрид автоматизации и человеческого интеллекта 7:16

Компания Invisible Technologies, где Даунс занимает пост CTO, позиционирует себя как платформу на стыке управления персоналом и автоматизации . Даунс описывает их подход как «горизонтальный», позволяющий решать задачи масштабирования бизнеса через комбинацию консалтинга, труда и ИТ-решений .

Ключевой метод работы компании — это поиск «болевых точек» в процессах клиента, которые Даунс метафорически называет «рисованием круга маркером вокруг проблемы» . Основные отличия подхода Invisible от традиционного аутсорсинга:

Против «аренды тел»: Традиционные фирмы продают часы работы, что создает неверные стимулы для раздувания штата. Invisible фокусируется на результате и оптимизации .
Против полной автоматизации: Чисто технологические решения (OCR, скрейпинг) часто хрупки и требуют долгой настройки. Гибридный подход позволяет запустить процесс немедленно .
Гибкость интерфейсов: Платформа позволяет создавать новые цифровые поверхности для взаимодействия тренеров с ИИ на основе оперативной обратной связи от исследователей .

В качестве примера Даунс приводит работу с компаниями по доставке еды (например, DoorDash). Задача по оцифровке миллионов ресторанных меню требует не просто распознавания текста, но и понимания контекста: например, ИИ должен знать, что нельзя заказать курицу степени прожарки «medium rare» .

🦾 RLHF: «Костюм Железного человека» для тренеров ИИ 15:45

Одним из главных направлений работы Invisible стало обучение с подкреплением на основе отзывов людей (RLHF). Даунс утверждает, что их платформа используется OpenAI и другими известными компаниями для доработки моделей .

По мнению Даунса, в индустрии происходит важный сдвиг:

От количества к качеству: Время «армий» низкоквалифицированных разметчиков данных, кликающих по картинкам с хот-догами, проходит .
Высокий уровень суждений: Современные задачи RLHF требуют экспертов с учеными степенями, отличным знанием языков и способностью принимать сложные решения .
Инструментарий: В Invisible это называют «выдачей агентам костюмов Железного человека» — использованием ИИ для максимизации эффективности одного высококвалифицированного тренера .

Даунс подчеркивает, что обучение ИИ сегодня напоминает воспитание ребенка и обучение его в школе . Если модель утверждает, что «2 + 2 = 5», её не нужно перепрошивать на уровне калькулятора — её нужно отправить в «класс математики», где через примеры и исправления она усвоит правило «2 + 2 = 4» .

🤥 Проблема галлюцинаций и поиск «объективной истины» 26:11

Ведущий Крейг Смит выразил скепсис относительно способности RLHF полностью искоренить галлюцинации ИИ, называя их «ложью» . Он предположил, что без фундаментальной «модели мира», не основанной на языке, ИИ не сможет отличить реальность от вымысла .

Скотт Даунс, напротив, настроен оптимистично. Его аргументы:

Латентные возможности: В LLM уже заложено гораздо больше потенциала и «моделей мира», чем кажется на первый взгляд. Проблема часто заключается не во внутреннем понимании, а в способе выражения .
Обучение черезHabit: Через RLHF модель обучают не просто конкретным фактам, а «поведению» — привычке искать наиболее объективную истину в поглощенных данных .
Доказанный прогресс: Даунс утверждает, что лично наблюдал, как работа его команды приводила к исправлениям в новых версиях известных LLM: там, где раньше модель ошибалась в простых логических цепочках, после обучения она выдавала верный результат на новых, не входивших в обучение примерах .

🎤 Промпт-инжиниринг против тонкой настройки (Fine-tuning) 38:46

Даунс отметил неожиданный тренд: потребность в глубокой донастройке моделей (fine-tuning) под конкретных клиентов оказалась ниже, чем ожидалось .

По его словам:

«Стоковые» модели (например, GPT-4) при правильном подходе решают гораздо больше задач, чем предполагали разработчики .
Основной прирост качества дает «промпт-инжиниринг» — искусство правильно задавать вопросы «оракулу в Дельфах» .
Иногда изменение формулировки вопроса дает лучший результат, чем попытка создать специализированную модель под узкую задачу .

В качестве примера Даунс привел случай из области e-commerce: GPT-4 «из коробки» смогла классифицировать косметические товары (отличить подводку для глаз от туши) лучше, чем люди, хотя изначально в компании планировали использовать для этого специализированную модель .

🎨 Творчество, социальный эффект и будущее труда 53:00

Обсуждая влияние ИИ на рынок труда, Даунс выразил уверенность, что технологии не уничтожат профессии, а избавят людей от «дегуманизирующего» монотонного труда .

Основные тезисы участников дискуссии:

Текст как инструмент: Крейг Смит отметил, что ИИ станет огромным подспорьем для людей, которые умеют читать, но испытывают трудности с написанием текстов (аналогия с успехом сервиса Grammarly) .
Креативный вызов: Появление «ИИ-Дрейка» (песен, полностью имитирующих стиль известного рэпера) пугает, но одновременно заставляет ценить подлинное человеческое творчество выше .
Эффект привыкания: Как и в случае с фотофильтрами (например, Prisma), вау-эффект от ИИ-искусства быстро проходит, и люди начинают требовать чего-то более глубокого и человечного .

Даунс резюмирует, что эпоха ИИ — это не про замену людей машинами, а про переход человека к задачам, требующим «высокого уровня суждений» (High Judgment Work), где машины служат лишь инструментом для реализации человеческого видения .