Орен Этциони: «Регулируйте приложения ИИ, а не фундаментальные исследования»

DeepLearning.AI 3,2 тыс. 34 мин 5 мин 13.10.2020
Главное

Орен Этциони — одна из самых значимых фигур в мире обработки естественного языка (NLP) и искусственного интеллекта. В интервью с Эндрю НГ он рассказывает о своем пути от чтения классической литературы по ИИ до руководства Институтом искусственного интеллекта Аллена (AI2), а также делится взглядами на будущее больших языковых моделей и этику регулирования технологий.

🎓 Путь к истокам: от «Гёделя, Эшера, Баха» до Harvard 0:03

Интерес Орена Этциони к искусственному интеллекту зародился еще в старших классах школы под влиянием книги Дугласа Хофштадтера «Гёдель, Эшер, Бах» . По мнению Этциони, вопросы о природе интеллекта и возможности создания мыслящей машины столь же фундаментальны для науки, как вопросы о происхождении Вселенной или основах материи .

Свою практическую деятельность ученый начал с изучения Lisp — одного из старейших языков программирования, который лег в основу многих идей в современных Java и Python . Подготовка к карьере в области ИИ продолжилась в Гарвардском университете (Harvard University) на факультете компьютерных наук . Этциони признается, что на заре своей карьеры он не предвидел нынешнего коммерческого успеха ИИ и революции глубокого обучения (Deep Learning), будучи движимым исключительно интеллектуальным любопытством .

🕸 Open Information Extraction: как научить ИИ читать весь интернет 3:39

Одним из ключевых достижений Этциони стала разработка концепции открытого извлечения информации (Open Information Extraction, Open IE). До этого системы извлечения данных работали в узких рамках: например, искали только события слияний и поглощений (M&A) или информацию о террористических актах .

Этциони предложил подход «ни одного предложения не будет забыто» (no sentence left behind), целью которого было создание всеобъемлющей базы знаний на основе миллиардов предложений в вебе .

Ключевые особенности подхода:

🔬 Проект Semantic Scholar и борьба с COVID-19 7:59

Возглавляемый Этциони институт AI2 (некоммерческая организация, основанная покойным Полом Алленом) запустил проект Semantic Scholar для борьбы с «информационным шумом» в науке . Поскольку объем научных публикаций удваивается каждые несколько лет, ученым становится невозможно отслеживать все важные работы в своей области.

Функционал Semantic Scholar включает:

Особую роль проект сыграл в начале пандемии COVID-19. В марте 2020 года по запросу Белого дома AI2 сформировал коалицию, в которую вошли Microsoft, Инициатива Чана — Цукерберга, Джорджтаунский университет и крупные издательства . Результатом стал датасет CORD-19 (COVID Open Research Dataset), содержащий более 200 000 машиночитаемых научных статей, обновляемых ежедневно . На базе этих данных платформа Kaggle провела свои самые популярные соревнования, что помогло врачам и исследователям быстрее находить ответы на клинические вопросы .

💰 Секрет успеха стартапов: где брать данные 13:31

Как успешный серийный предприниматель, Этциони считает «грязным маленьким секретом» больших данных тот факт, что ценность представляют не просто данные, а их разметка (лейблинг) . Его наиболее успешная компания Farecast (проданная Microsoft в 2008 году), предсказывавшая цены на авиабилеты, оперировала триллионом размеченных точек данных .

Механизм автоматической разметки в Farecast:

  1. Система делает прогноз на определенную дату (например, 1 декабря), что цена вырастет через неделю .
  2. Через неделю время само «размечает» данные: мы просто смотрим, сбылся прогноз или нет .
  3. Пассаж времени превращает обычные данные в обучающую выборку без ручного труда.

Этот же принцип «саморазметки» (Self-labeling), по словам Этциони, лежит в основе современных моделей вроде BERT, RoBERTa или GPT-3 . Они используют последовательную природу языка, маскируя слова и пытаясь их предсказать, что позволяет обучаться на огромных массивах неразмеченного текста .

🍃 Будущее нейросетей и концепция Green AI 18:16

Этциони признает, что ранее ошибался в своих прогнозах, ожидая плато в росте размеров нейросетевых моделей . По его нынешнему мнению, модели продолжат расти, пока индустрия не столкнется с серьезным пределом эффективности . Однако параллельно с «грубой силой» огромных моделей ученый выделяет направление оптимизации.

Он приводит аналогию с шахматами: если раньше для игры требовались суперкомпьютеры и специализированные чипы, то сегодня мощные программы работают на обычных ноутбуках . В AI2 активно продвигают концепцию Green AI («Зеленый ИИ»), которая призывает учитывать эффективность при публикации исследований .

Основные тезисы Green AI:

⚖️ Регулирование ИИ: аудит против объяснимости 26:38

Обсуждая вопрос государственного регулирования ИИ, Этциони высказывает осторожную позицию. Он предостерегает от попыток «законодательно закрепить ценности внутри технологий» и считает, что нужно позволить «расцветать тысяче цветов» в области исследований .

Позиция Этциони по регулированию:

  1. Регулировать нужно приложения, а не исследования. Например, если алгоритм сканирования резюме дискриминирует женщин, это должно быть запрещено, так как это нарушает закон .
  2. Право на аудит важнее права на объяснение. В ЕС обсуждается право на получение объяснения от ИИ, но для моделей глубокого обучения с миллиардами параметров любые понятные человеку объяснения могут оказаться неточными или вводящими в заблуждение .
  3. Создание рынка идей. Доступ к моделям для аудита должны иметь третьи стороны: ученые, журналисты и некоммерческие организации (например, ACLU), чтобы проверять системы на наличие предвзятости .

🚀 Советы для карьеры в NLP 31:39

Тем, кто хочет начать карьеру в области обработки естественного языка, Орен Этциони дает три ключевых совета:

💬 Цитаты

«Вопрос о том, как построить интеллектуальную машину — это один из самых фундаментальных вопросов во всей науке, наряду с происхождением Вселенной.»

Орен Этциони 1:24

«Грязный секрет больших данных не только в том, что их нужно много, но и в том, что нужно очень много меток.»

Орен Этциони 14:10

«Регулируйте приложения, а не исследования.»

Орен Этциони 29:09
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Open IE (Open Information Extraction)
Метод автоматического извлечения структурированных отношений из неструктурированного текста без привязки к конкретной тематике.
Green AI
Направление в ИИ, ориентированное на повышение энергоэффективности и снижение стоимости обучения моделей.
TLDR (Too Long; Didn't Read)
Автоматически сгенерированное сверхкраткое резюме научной статьи (в контексте проекта Semantic Scholar).
Lisp
Один из первых языков программирования, традиционно использовавшийся для задач ИИ и символьных вычислений.
📊 Цифры
🗓 Хронология
  1. 2003 Основание компании Farecast.
  2. 2008 Продажа Farecast корпорации Microsoft.
  3. 2014 Начало работы Орена Этциони в качестве CEO Института ИИ Аллена.
  4. Март 2020 Создание консорциума для формирования датасета CORD-19 по запросу Белого дома.
⚖️ Другая сторона
Искусственный интеллект Орен Этциони Allen Institute for AI Semantic Scholar Green AI Farecast