Дэн Кокотов: Будущее распознавания речи, ИИ и «уроки» в управлении командами
Дэн Кокотов, вице-президент по инженерии в Rev.ai, присоединился к Лексу Фридману, чтобы обсудить тонкости создания систем автоматического распознавания речи (ASR), философию управления технологическими командами и роль человеческого творчества в мире алгоритмов. В беседе, охватывающей темы от классической научной фантастики до будущего журналистики и открытых коммуникаций, собеседники исследуют, как технологии могут сделать общение между людьми более доступным и глубоким.
🧠 Технологии и «магия» создания продукта 1:18
Лекс Фридман отмечает, что в его работе существует набор инструментов, которые радикально упрощают жизнь, превращая рутину в «радость». В их число входят:
- Adobe Premiere (видеомонтаж).
- iZotope RX (очистка аудио от шумов и «паразитных» звуков).
- AutoHotkey (автоматизация задач).
- Emacs (IDE).
Rev.ai, по словам Фридмана, занял место в этом списке, предоставив бесшовное решение для транскрипции. Дэн Кокотов поясняет, что изначальный замысел компании заключался в улучшении модели рынка фриланса, подобной Upwork.
- Проблема Upwork: И заказчикам, и фрилансерам было сложно взаимодействовать из-за необходимости постоянно «продавать» свои профили или искать подходящего исполнителя без экспертных знаний.
- Решение Rev: Создание стандартизированного интерфейса, где пользователь просто загружает файл и получает результат без вникания в детали того, «как делается колбаса».
Кокотов подчеркивает, что их основной фокус — это специализация на языковых услугах, таких как транскрипция аудио и перевод, где задачу можно четко определить и стандартизировать, в отличие от разработки программного обеспечения.
📊 Мир ASR: Где заканчивается ИИ и начинается человек? 28:23
Автоматическое распознавание речи (ASR) — это сложная задача машинного обучения, требующая адаптации под конкретный домен. Кокотов проводит границу между такими системами, как Siri, где ограниченный словарь, и задачами Rev, работающими с неструктурированной речью.
Основные показатели и вызовы:
- Word Error Rate (WER): Текущая точность Rev на их тестовом наборе составляет около 14%.
- Идеал: Реалистичным пределом «человеческой» точности Кокотов называет 2–3%.
- Flywheel данных: Основное преимущество Rev — наличие «магического маховика», где бизнес-модель оплаты труда транскрибаторов поставляет высококачественные размеченные данные для дообучения ИИ.
Кокотов отмечает, что компания изучает способы извлечения сигналов из того, как именно люди правят автоматические транскрипты, что может дать больше информации, чем просто финальный текст.
👥 Управление людьми и «менеджмент по исключению»
Переход от индивидуального программиста к управленцу стал для Кокотова испытанием. Он отмечает разницу в получении дофаминового отклика: у инженера — от кода, у менеджера — от успеха команды.
Философия управления в Rev опирается на принцип «менеджмента по исключению»:
- Нет единого шаблона для всех сотрудников.
- Важно понимать индивидуальные драйверы каждого человека.
- Некоторых сотрудников нужно жестко критиковать для их роста, других — только поощрять, так как они чрезмерно самокритичны.
В качестве ключевого источника мудрости по теме лидерства Кокотов рекомендует книгу «Сначала нарушьте все правила» (First, Break All the Rules).
📚 Культурный контекст и философия 3:28
Разговор неоднократно возвращался к философским вопросам и литературе.
- Фантастика: Оба собеседника высоко ценят цикл «Дюна» Фрэнка Герберта, особенно идеи Лето II Атрейдеса о том, что для прогресса цивилизации необходимо преодолевать стагнацию через «давление и страдания».
- Дистопия: Кокотов выделяет «О дивный новый мир» Олдоса Хаксли как пугающе точное предсказание «генетической сортировки» и стратификации общества. Фильм Терри Гиллиама «Бразилия» он называет своим любимым воплощением «авторитарной некомпетентности», где система зла функционирует не из-за гениального плана, а из-за бюрократической инертности.
- Природа человека: Фридман и Кокотов сошлись во мнении, что подкастинг создает уникальную форму одностороннего, но глубокого человеческого соединения через голос, что является естественным для эволюции человека, привыкшего к «племенному» общению.