Адам Коутс: «ИИ-технологии стремятся к человеческому уровню взаимодействия»

Y Combinator 5,9 тыс. 30 мин 3 мин 11.08.2017
Главное

Инновации в распознавании речи: опыт Baidu AI Lab 0:00

Директор Baidu AI Lab Адам Коутс в интервью для Y Combinator рассказал о том, как одна из крупнейших поисковых систем Китая трансформируется в компанию, ориентированную на искусственный интеллект. Основная миссия лаборатории заключается в создании технологий, способных принести реальную пользу не менее чем 100 миллионам человек. Для этого команда объединяет фундаментальные научные исследования с быстрым выводом продуктов на рынок, работая на стыке глубокого обучения (Deep Learning), проектирования оборудования и пользовательского опыта.

🤖 Технологический прорыв: от научных изысканий к продукту 3:08

Важным примером деятельности лаборатории стало развитие системы распознавания речи Deep Speech. Изначально технология считалась достаточно эффективной лишь для коротких запросов, произносимых в идеальных условиях — например, когда пользователь подносит телефон близко к лицу и говорит «нечеловеческим» голосом. Исследователи Baidu поставили амбициозную цель: создать систему, работающую на уровне человека в любых условиях — дома, в машине, на расстоянии от устройства и при наличии фонового шума.

Ключевые принципы разработки Deep Speech:

По словам Адама Коутса, модель Deep Speech достигла «сверхчеловеческого» уровня точности в китайском языке, успешно распознавая даже крайне тяжелые диалекты, с которыми порой не справляются носители языка.

🗣️ Будущее интерфейсов и работа с данными 14:00

С развитием технологий AI-функции перестают быть просто дополнением (вроде кнопки микрофона на клавиатуре) и становятся основой взаимодействия пользователя с устройством. Лаборатория разработала прототип «голосовой клавиатуры» под названием TuckType для Android, которая меняет привычки пользователей, делая голос приоритетным способом ввода.

🧠 Вызовы и новые горизонты исследований 21:09

Несмотря на успехи, остаются сложные задачи, над которыми лаборатория работает прямо сейчас:

  1. Распознавание в сложных условиях: Обработка фонового шума, перекрестных разговоров и неформальной речи остается «крепким орешком» для текущих систем.
  2. Длинные форматы: Транскрибирование лекций или длительных встреч требует не только понимания слов, но и учета контекста всей беседы, где термины или имена могут уточняться позже.
  3. Безопасность: В ответ на вопрос о возможности симуляции голоса и видео (дипфейках), Коутс отмечает, что это социальный вызов, требующий от общества развития критического мышления, подобно тому, как мы научились проверять достоверность авторских статей.

🛠️ Кто создает технологии завтрашнего дня? 26:04

Для успеха в быстро меняющейся среде AI-лаборатория ищет особый тип специалистов. Адам Коутс называет их «full-stack machine learning engineers» — это люди, которые:

По мнению Коутса, лучший совет для желающих войти в эту сферу — постоянно учиться и не замыкаться в узких инженерных задачах, перенимая культуру стартапов, где фокус на обучении и быстром поиске реальных «болевых точек» пользователя ценится выше, чем просто создание сложного кода.

💬 Цитаты

«Мы хотим создавать ИИ-технологии, которые окажут значительное влияние как минимум на 100 миллионов человек.»

Адам Коутс 02:00

«Раньше казалось, что мы никогда не избавимся от необходимости ручного проектирования, но оказалось, что при наличии достаточного количества данных всё это исчезает.»

Адам Коутс 10:19
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Deep Speech
Система распознавания речи от Baidu, основанная на глубоком обучении.
Superhuman performance
Уровень точности технологии, превосходящий средние показатели человека.
Latency
Задержка между командой пользователя и ответом системы.
Supervised learning
Метод обучения ИИ, где модель учится на размеченных людьми данных.
Unsupervised learning
Метод обучения модели на неразмеченных сырых данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Baidu Deep Speech Machine Learning Y Combinator AI Lab