Скотт Даунс: «Мы даем тренерам ИИ костюмы Железного человека»

Eye on AI 1,8 тыс. 1 ч 3 мин 5 мин 02.08.2023
Главное

Обучение современных больших языковых моделей (LLM) часто представляют как процесс поглощения колоссальных объемов данных мощными графическими процессорами. Однако за кулисами этого процесса стоит «армия» людей, которые обучают нейросети вести себя корректно и фактическая точность ответов ИИ во многом зависит от качества их работы.

Технический директор компании Invisible Technologies Скотт Даунс (Scott Downes) в интервью каналу Eye on AI подробно рассказал о механизмах обучения с подкреплением на основе отзывов людей (RLHF), будущем рынка труда и о том, почему «гуманитарный» подход сегодня важен для технологий как никогда раньше.

🛠 От литературы к коду: Путь CTO нового типа 1:31

Скотт Даунс называет себя «CTO другого типа», подчеркивая, что его путь в технологии не был линейным . Начав писать код в 14 лет, в университете он изучал литературу, а в 20 лет работал на радио, был музыкантом и дизайнером . По его словам, именно эпоха доткомов сделала востребованным широкий кругозор, когда выпускники филологических и театральных факультетов массово переходили в технологический сектор .

Этот бэкграунд сформировал философию Даунса:

🧠 Invisible Technologies: Гибрид автоматизации и человеческого интеллекта 7:16

Компания Invisible Technologies, где Даунс занимает пост CTO, позиционирует себя как платформу на стыке управления персоналом и автоматизации . Даунс описывает их подход как «горизонтальный», позволяющий решать задачи масштабирования бизнеса через комбинацию консалтинга, труда и ИТ-решений .

Ключевой метод работы компании — это поиск «болевых точек» в процессах клиента, которые Даунс метафорически называет «рисованием круга маркером вокруг проблемы» . Основные отличия подхода Invisible от традиционного аутсорсинга:

  1. Против «аренды тел»: Традиционные фирмы продают часы работы, что создает неверные стимулы для раздувания штата. Invisible фокусируется на результате и оптимизации .
  2. Против полной автоматизации: Чисто технологические решения (OCR, скрейпинг) часто хрупки и требуют долгой настройки. Гибридный подход позволяет запустить процесс немедленно .
  3. Гибкость интерфейсов: Платформа позволяет создавать новые цифровые поверхности для взаимодействия тренеров с ИИ на основе оперативной обратной связи от исследователей .

В качестве примера Даунс приводит работу с компаниями по доставке еды (например, DoorDash). Задача по оцифровке миллионов ресторанных меню требует не просто распознавания текста, но и понимания контекста: например, ИИ должен знать, что нельзя заказать курицу степени прожарки «medium rare» .

🦾 RLHF: «Костюм Железного человека» для тренеров ИИ 15:45

Одним из главных направлений работы Invisible стало обучение с подкреплением на основе отзывов людей (RLHF). Даунс утверждает, что их платформа используется OpenAI и другими известными компаниями для доработки моделей .

По мнению Даунса, в индустрии происходит важный сдвиг:

Даунс подчеркивает, что обучение ИИ сегодня напоминает воспитание ребенка и обучение его в школе . Если модель утверждает, что «2 + 2 = 5», её не нужно перепрошивать на уровне калькулятора — её нужно отправить в «класс математики», где через примеры и исправления она усвоит правило «2 + 2 = 4» .

🤥 Проблема галлюцинаций и поиск «объективной истины» 26:11

Ведущий Крейг Смит выразил скепсис относительно способности RLHF полностью искоренить галлюцинации ИИ, называя их «ложью» . Он предположил, что без фундаментальной «модели мира», не основанной на языке, ИИ не сможет отличить реальность от вымысла .

Скотт Даунс, напротив, настроен оптимистично. Его аргументы:

🎤 Промпт-инжиниринг против тонкой настройки (Fine-tuning) 38:46

Даунс отметил неожиданный тренд: потребность в глубокой донастройке моделей (fine-tuning) под конкретных клиентов оказалась ниже, чем ожидалось .

По его словам:

В качестве примера Даунс привел случай из области e-commerce: GPT-4 «из коробки» смогла классифицировать косметические товары (отличить подводку для глаз от туши) лучше, чем люди, хотя изначально в компании планировали использовать для этого специализированную модель .

🎨 Творчество, социальный эффект и будущее труда 53:00

Обсуждая влияние ИИ на рынок труда, Даунс выразил уверенность, что технологии не уничтожат профессии, а избавят людей от «дегуманизирующего» монотонного труда .

Основные тезисы участников дискуссии:

Даунс резюмирует, что эпоха ИИ — это не про замену людей машинами, а про переход человека к задачам, требующим «высокого уровня суждений» (High Judgment Work), где машины служат лишь инструментом для реализации человеческого видения .

💬 Цитаты

«Мы хотим найти способы воспользоваться высококлассными суждениями действительно умных и искушенных людей. Мы называем это «выдачей нашим агентам костюмов Железного человека».»

Скотт Даунс 22:28

«Я верю, что технологии лучше всего тогда, когда они невидимы. Наша цель — возвысить человека.»

«LLM феноменально полезны в разных проблемных областях такими способами, которых мы не могли предвидеть еще пару лет назад.»

Скотт Даунс 00:13
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Reinforcement Learning from Human Feedback — метод обучения ИИ, при котором люди оценивают ответы модели, помогая ей стать более точной и безопасной.
Промпт-инжиниринг
Искусство составления точных текстовых запросов для ИИ, чтобы получить наиболее релевантный и качественный результат.
Fine-tuning
Процесс дообучения уже готовой нейросети на специфическом наборе данных для решения узкоспециализированных задач.
Галлюцинации
Явление, при котором искусственный интеллект уверенно генерирует фактологически неверную или несуществующую информацию.
📊 Цифры
🗓 Хронология
  1. Декабрь 2022 Проект по классификации каталогов, где GPT-4 превзошла людей в точности без специального дообучения.
  2. 1990-е Эпоха доткомов, когда междисциплинарный бэкграунд (гуманитарные науки + ИТ) стал преимуществом.
⚖️ Другая сторона
Искусственный интеллект Scott Downes Invisible Technologies OpenAI RLHF LLM