Искусство оценки: Как Merkor стала самой быстрорастущей компанией в истории 0:00
Мы живем в эпоху «оценок» (evals), где способность измерить качество работы ИИ становится главным рычагом прогресса. Брендан Фуди, сооснователь и генеральный директор компании Merkor, утверждает, что именно этот навык превратил его стартап в феномен: за 17 месяцев выручка компании выросла с 1 до 500 миллионов долларов, а оценка бизнеса достигла 2 миллиардов долларов. В беседе с ведущим подкаста Lenny's Podcast, Ленни, Фуди объясняет, почему измерение «успешности» модели стало важнее самих моделей и как эксперты-люди оказались незаменимым звеном в обучении ИИ будущего.
🧠 Era of Evals: Почему оценка — это новый продукт 6:00
Брендан Фуди проводит четкую аналогию: если модель — это сам продукт, то методология её оценки (evals) — это документ с требованиями к продукту (PRD). Сегодня исследователи ИИ-лабораторий проводят десятки экспериментов, добиваясь микроскопических улучшений на определенных наборах данных, и именно точность этих оценок определяет скорость прогресса.
- Измерение успеха: Для автоматизации экономики через ИИ-агентов главным барьером остается вопрос: как эффективно измерить успех?
- Маркетинг через оценки: По мнению Сары Кунц (Sarah Kunz), которую цитирует Фуди, оценки — это ваш новый маркетинг. Модели теперь демонстрируют свою эффективность не только через академические бенчмарки (математика, уровень PhD), но и через способность автоматизировать конкретные бизнес-процессы, будь то разработка ПО или инвестиционный банкинг.
🏗 Путь основателя: От школьных пончиков до миллиардного единорога 10:09
История Merkor началась, когда Фуди со своими сооснователями встретились в 14 лет, а компанию запустили в 19 лет.
- Оригин: Сначала они автоматизировали процесс найма персонала через LLM, выступая в роли посредников.
- Переломный момент: Встреча с командой xAI стала ключевой. Фуди понял, что лабораториям нужны не просто «массовые» рабочие, а эксперты высокого уровня для интерпретации сложных задач.
- Масштабирование: Отказ от модели краудсорсинга в пользу высококвалифицированных профессионалов (инженеров из FAANG, юристов, врачей) позволил достичь net retention (удержание выручки) выше 1600%.
- Текущий этап: Компания работает с 5 из 5 топовых ИИ-лабораторий и большинством компаний прикладного уровня, обеспечивая их «лабораторией» талантов.
🛠 Чем на самом деле занимаются «оценщики» ИИ? 13:16
В Merkor эксперты — это не просто разметчики данных. Это профессионалы, которые пишут «рубрикаторы» для оценки работы модели.
- Пост-обучение: Эксперты создают стандарты того, что считается «хорошим» ответом.
- RLHF и RLAIF: Рынок смещается от простого обучения с подкреплением на основе отзывов людей (RLHF) к обучению на основе отзывов ИИ (RLAIF), где человек задает систему критериев или код (unit-тесты), по которым модель учится сама себя оценивать и улучшать.
- Творческий подход: Среди экспертов есть не только инженеры, но и профессиональные сценаристы (например, выходцы из Harvard Lampoon), помогающие моделям стать «смешнее» или более креативными.
🔮 Будущее труда: Эластичность и «сверхспособности» 21:14
По словам Фуди, опасения по поводу вытеснения рабочих мест ИИ часто упускают из виду возникновение совершенно новых категорий профессий.
- Эластичный спрос: Фуди выделяет сферы, где повышение производительности в 10 раз приведет к 100-кратному росту спроса — например, разработка программного обеспечения.
- Навыки будущего: Не стоит бороться с ИИ, нужно учиться им пользоваться. Фуди уверен: ИИ не заменит вас, вас заменит человек, который отлично умеет использовать ИИ.
- Конкуренция с суперразумом: Фуди разделяет мнение Илона Маска о необходимости «подключения» человеческого мозга к ИИ-инструментам, чтобы оставаться конкурентоспособными в эпоху AGI.
💡 Уроки управления и культуры 45:54
Успех Merkor, по словам Фуди, держится на трех столпах:
- Can-do attitude (Настрой «можно сделать»): Постановка амбициозных целей, которые кажутся безумными, но достигаются.
- Высокие стандарты: Бескомпромиссный наем, включая бывших основателей и топ-менеджеров из Uber.
- Интенсивность: Ориентация на результат, а не на количество часов, при этом высокая степень вовлеченности команды.