# Дэн Кокотов о будущем ИИ: «Программирование людей сложнее, чем написание кода»

Источник: https://www.youtube.com/watch?v=yTWa-Z1UQwU
Канал: Lex Fridman
Опубликовано: 04.01.2021

---

# Дэн Кокотов: Будущее распознавания речи, ИИ и «уроки» в управлении командами

[[JUMP:00:00]]

Дэн Кокотов, вице-президент по инженерии в Rev.ai, присоединился к Лексу Фридману, чтобы обсудить тонкости создания систем автоматического распознавания речи (ASR), философию управления технологическими командами и роль человеческого творчества в мире алгоритмов. В беседе, охватывающей темы от классической научной фантастики до будущего журналистики и открытых коммуникаций, собеседники исследуют, как технологии могут сделать общение между людьми более доступным и глубоким.

## 🧠 Технологии и «магия» создания продукта
[[JUMP:01:18]]

Лекс Фридман отмечает, что в его работе существует набор инструментов, которые радикально упрощают жизнь, превращая рутину в «радость». В их число входят:

*   Adobe Premiere (видеомонтаж).
*   iZotope RX (очистка аудио от шумов и «паразитных» звуков).
*   AutoHotkey (автоматизация задач).
*   Emacs (IDE).

Rev.ai, по словам Фридмана, занял место в этом списке, предоставив бесшовное решение для транскрипции. Дэн Кокотов поясняет, что изначальный замысел компании заключался в улучшении модели рынка фриланса, подобной Upwork.

*   **Проблема Upwork:** И заказчикам, и фрилансерам было сложно взаимодействовать из-за необходимости постоянно «продавать» свои профили или искать подходящего исполнителя без экспертных знаний.
*   **Решение Rev:** Создание стандартизированного интерфейса, где пользователь просто загружает файл и получает результат без вникания в детали того, «как делается колбаса».

Кокотов подчеркивает, что их основной фокус — это специализация на языковых услугах, таких как транскрипция аудио и перевод, где задачу можно четко определить и стандартизировать, в отличие от разработки программного обеспечения.

## 📊 Мир ASR: Где заканчивается ИИ и начинается человек?
[[JUMP:28:23]]

Автоматическое распознавание речи (ASR) — это сложная задача машинного обучения, требующая адаптации под конкретный домен. Кокотов проводит границу между такими системами, как Siri, где ограниченный словарь, и задачами Rev, работающими с неструктурированной речью.

Основные показатели и вызовы:

*   **Word Error Rate (WER):** Текущая точность Rev на их тестовом наборе составляет около 14%.
*   **Идеал:** Реалистичным пределом «человеческой» точности Кокотов называет 2–3%.
*   **Flywheel данных:** Основное преимущество Rev — наличие «магического маховика», где бизнес-модель оплаты труда транскрибаторов поставляет высококачественные размеченные данные для дообучения ИИ.

Кокотов отмечает, что компания изучает способы извлечения сигналов из того, *как именно* люди правят автоматические транскрипты, что может дать больше информации, чем просто финальный текст.

## 👥 Управление людьми и «менеджмент по исключению»
[[JUMP:106:50]]

Переход от индивидуального программиста к управленцу стал для Кокотова испытанием. Он отмечает разницу в получении дофаминового отклика: у инженера — от кода, у менеджера — от успеха команды.

Философия управления в Rev опирается на принцип «менеджмента по исключению»:

*   Нет единого шаблона для всех сотрудников.
*   Важно понимать индивидуальные драйверы каждого человека.
*   Некоторых сотрудников нужно жестко критиковать для их роста, других — только поощрять, так как они чрезмерно самокритичны.

В качестве ключевого источника мудрости по теме лидерства Кокотов рекомендует книгу *«Сначала нарушьте все правила»* (First, Break All the Rules).

## 📚 Культурный контекст и философия
[[JUMP:03:28]]

Разговор неоднократно возвращался к философским вопросам и литературе.

*   **Фантастика:** Оба собеседника высоко ценят цикл *«Дюна»* Фрэнка Герберта, особенно идеи Лето II Атрейдеса о том, что для прогресса цивилизации необходимо преодолевать стагнацию через «давление и страдания».
*   **Дистопия:** Кокотов выделяет *«О дивный новый мир»* Олдоса Хаксли как пугающе точное предсказание «генетической сортировки» и стратификации общества. Фильм Терри Гиллиама *«Бразилия»* он называет своим любимым воплощением «авторитарной некомпетентности», где система зла функционирует не из-за гениального плана, а из-за бюрократической инертности.
*   **Природа человека:** Фридман и Кокотов сошлись во мнении, что подкастинг создает уникальную форму одностороннего, но глубокого человеческого соединения через голос, что является естественным для эволюции человека, привыкшего к «племенному» общению.