Эпоха фабрик данных: как CEO Labelbox строит конвейер для обучения AGI с экспертами на $250k в год

The Cognitive Revolution 258 тыс. 1 ч 42 мин 5 мин 08.07.2025
Главное

В современной гонке за создание сильного искусственного интеллекта (AGI) фокус сместился с простого сбора данных из интернета на создание высокоспециализированных сред обучения. Генеральный директор Labelbox Ману Шарма в подкасте The Cognitive Revolution описывает текущее состояние индустрии как «эпоху фабрик данных», где ежегодные бюджеты ведущих лабораторий на пост-обучение (post-training) превышают миллиард долларов.

🌪️ Хаос и реорганизация в индустрии данных 0:00

Индустрия ИИ переживает период значительной трансформации, вызванный недавними крупными сделками, такими как соглашение Meta с Scale AI на сумму 15 миллиардов долларов . Переход ключевых фигур, включая бывшего CEO Scale Алекса Ванга в Meta для руководства командой супер-интеллекта, создал волну неопределенности и новых возможностей в секторе . По словам Ману Шармы, сейчас мир наблюдает «максимальную скорость инноваций в день», которую когда-либо видело человечество .

Ману Шарма выделяет три столпа, необходимых для создания фронтирных моделей:

Если на этапе предварительного обучения (pre-training) модель поглощает паттерны из всего интернета, то пост-обучение превращает «базовую модель» в полезного помощника . Ману Шарма утверждает, что каждая западная фронтирная лаборатория ИИ сейчас тратит более 1 миллиарда долларов в год исключительно на данные для пост-обучения .

🧬 Эволюция пост-обучения: от разметки к «гимназиям» 7:14

Подходы к созданию данных прошли несколько ключевых этапов развития:

  1. Supervised Learning (SFT): Люди размечали изображения и видео, заставляя модели подражать человеческим тегам .
  2. RLHF (Reinforcement Learning from Human Feedback): Специализированные наборы данных для обучения моделей взаимодействию с работниками интеллектуального труда .
  3. RL из верифицируемых вознаграждений: Текущая парадигма, в которой модели развивают навыки в специализированных средах .

Ману Шарма называет эти среды «тренажерными залами» (Gyms), где модели обучаются методом проб, ошибок и автоматизированной обратной связи . Наиболее активно этот метод применяется в программировании (coding) и математике, так как результат там легко верифицировать — работает код или нет, правильный ли численный ответ .

По мнению гостя, рассуждение (reasoning) теперь рассматривается как «эмерджентное свойство», возникающее в процессе обучения с подкреплением (RL), а не просто результат прямого подражания человеческим цепочкам мыслей .

🧑‍я Кадры нового поколения: AI-тренеры с зарплатой в $250 000 10:45

Современный рынок данных отошел от концепции «цифровых потогонных цехов» с низкоквалифицированным трудом. Сегодня Labelbox работает с сетью экспертов из 70 стран, включая физиков, математиков и программистов олимпийского уровня .

Ключевые факты о рынке труда AI-тренеров:

Ману Шарма отмечает, что ИИ-интервьюер Zara имеет средний рейтинг удовлетворенности 4.6–4.7 из 5 . Кандидатам нравится, что система проявляет бесконечное терпение и способна обсуждать нюансы их докторских диссертаций на уровне, недоступном обычному рекрутеру . Однако наблюдается и «человеческая изобретательность» в попытках обмана: кандидаты иногда используют продвинутый голосовой режим ChatGPT, чтобы два ИИ разговаривали друг с другом во время интервью .

🛠️ Тонкая настройка (Fine-tuning) против контекстной инженерии 46:11

В корпоративном секторе Ману Шарма наблюдает отказ от традиционного fine-tuning (дообучения весов модели) в пользу «контекстной инженерии» (context engineering) .

Аргументы в пользу контекстной инженерии (RAG и промпт-инжиниринг):

Ману Шарма приводит пример: модель Gemini 1.5 Pro по многим медицинским тестам превосходит Med-PaLM 2 — модель, специально обученную только на медицинских данных . Это доказывает, что общие способности к рассуждению критически важны даже в узких профессиональных областях.

🌍 Суверенный ИИ и глобальные перспективы 1:13:35

Обсуждая вопрос «суверенного ИИ» для таких стран, как Бразилия или Индия, Ману Шарма советует правительствам не инвестировать в технологии ради технологий, а идти от обратного — от конкретных целей и клиентского опыта .

Его рекомендации для государств:

  1. Определить высокоценные сценарии использования (налоги, здравоохранение, государственные услуги) .
  2. Использовать частные фронтирные или открытые модели как базу .
  3. Инвестировать в сбор уникальных национальных данных (язык, культурные особенности, локальное законодательство), чтобы адаптировать эти модели под нужды граждан .

Ману Шарма приводит аналогию из своего опыта в Planet Labs: Бразилии не обязательно запускать собственные спутники, чтобы следить за вырубкой лесов — достаточно покупать данные и инсайты у компаний, которые уже сканируют всю Землю ежедневно . Аналогично, странам стоит сосредоточиться на слое приложений и данных, а не на попытке перегнать OpenAI в вычислительных мощностях.

🔮 Будущее: Плато или Взлет? 1:36:53

На вопрос о том, ждет ли нас плато в развитии ИИ или стремительный взлет (fast takeoff), Ману Шарма отвечает, что мы уже находимся в фазе ускорения . Однако ключевым фактором дальнейшего прогресса станет передача моделям концепции «качества» и «вкуса» .

Ссылаясь на книгу «Дзен и искусство ухода за мотоциклом», Шарма подчеркивает, что люди часто узнают качество, когда видят его, но не могут его формализовать . Задача Labelbox и всей индустрии данных на ближайшие годы — найти способы передать это интуитивное человеческое понимание превосходства алгоритмам, что станет ключом к созданию по-настоящему надежных и полезных ИИ-агентов .


Инвестиционные метрики и факты:

💬 Цитаты

«Каждая фронтирная лаборатория сейчас тратит более миллиарда долларов в год на данные для обучения.»

Ману Шарма 01:04

«Мы находимся в режиме, когда фокус сместился на пост-обучение. Базовая модель — это лишь начало.»

Ману Шарма 05:40

«Наши топовые контрибьюторы зарабатывают значительно больше 250 000 долларов в год.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Post-training
Этап обучения модели после предварительного обучения (pre-training), включающий SFT и RLHF для превращения модели в помощника.
RLHF
Обучение с подкреплением на основе отзывов людей (Reinforcement Learning from Human Feedback).
Context Engineering
Метод улучшения работы модели через оптимизацию промптов и подачу нужного контекста (RAG) без изменения весов самой модели.
RL Gyms
Специализированные цифровые среды, где ИИ-модель обучается выполнять задачи через многократные попытки и получение вознаграждения.
📊 Цифры
🗓 Хронология
  1. 2018 Основание компании Labelbox.
  2. Начало 2022 Labelbox привлекла $110 млн инвестиций.
  3. Март 2025 Сделка Meta и Scale AI на $15 млрд и переход Алекса Ванга в Meta (контекст обсуждения).
⚖️ Другая сторона
Искусственный интеллект Labelbox RLHF Ману Шарма пост-обучение контекстная инженерия