# Орен Этциони: «Регулируйте приложения ИИ, а не фундаментальные исследования»

Источник: https://www.youtube.com/watch?v=PiF2Aln-L3w
Канал: DeepLearning.AI
Опубликовано: 13.10.2020

---

Орен Этциони — одна из самых значимых фигур в мире обработки естественного языка (NLP) и искусственного интеллекта. В интервью с Эндрю НГ он рассказывает о своем пути от чтения классической литературы по ИИ до руководства Институтом искусственного интеллекта Аллена (AI2), а также делится взглядами на будущее больших языковых моделей и этику регулирования технологий.

## 🎓 Путь к истокам: от «Гёделя, Эшера, Баха» до Harvard
[[JUMP:0:03]]

Интерес Орена Этциони к искусственному интеллекту зародился еще в старших классах школы под влиянием книги Дугласа Хофштадтера «Гёдель, Эшер, Бах» [1:10]. По мнению Этциони, вопросы о природе интеллекта и возможности создания мыслящей машины столь же фундаментальны для науки, как вопросы о происхождении Вселенной или основах материи [1:24].

Свою практическую деятельность ученый начал с изучения Lisp — одного из старейших языков программирования, который лег в основу многих идей в современных Java и Python [1:51]. Подготовка к карьере в области ИИ продолжилась в Гарвардском университете (Harvard University) на факультете компьютерных наук [2:21]. Этциони признается, что на заре своей карьеры он не предвидел нынешнего коммерческого успеха ИИ и революции глубокого обучения (Deep Learning), будучи движимым исключительно интеллектуальным любопытством [3:12].

## 🕸 Open Information Extraction: как научить ИИ читать весь интернет
[[JUMP:3:39]]

Одним из ключевых достижений Этциони стала разработка концепции открытого извлечения информации (Open Information Extraction, Open IE). До этого системы извлечения данных работали в узких рамках: например, искали только события слияний и поглощений (M&A) или информацию о террористических актах [4:25].

Этциони предложил подход «ни одного предложения не будет забыто» (no sentence left behind), целью которого было создание всеобъемлющей базы знаний на основе миллиардов предложений в вебе [4:50].

Ключевые особенности подхода:

*   Использование неконтролируемого обучения (Unsupervised Learning) вместо создания миллионов размеченных примеров вручную [5:43].
*   Опора на лингвистические инварианты: глаголы (например, «женился», «окончил», «приобрел») часто служат четким сигналом для определения предикатов и их аргументов [6:34].
*   Универсальность метода: идеи Open IE были успешно реплицированы для испанского, арабского, корейского и китайского языков [7:16].

## 🔬 Проект Semantic Scholar и борьба с COVID-19
[[JUMP:7:59]]

Возглавляемый Этциони институт AI2 (некоммерческая организация, основанная покойным Полом Алленом) запустил проект Semantic Scholar для борьбы с «информационным шумом» в науке [8:39]. Поскольку объем научных публикаций удваивается каждые несколько лет, ученым становится невозможно отслеживать все важные работы в своей области.

Функционал Semantic Scholar включает:

*   Создание автоматических сверхкратких резюме (TLDRs) — однострочных описаний сути работы [9:48].
*   Автоматическое извлечение рисунков и таблиц из PDF-файлов с использованием компьютерного зрения [10:00].
*   Бесплатный доступ ко всем функциям для экспертов и новичков на сайте semanticscholar.org [10:54].

Особую роль проект сыграл в начале пандемии COVID-19. В марте 2020 года по запросу Белого дома AI2 сформировал коалицию, в которую вошли Microsoft, Инициатива Чана — Цукерберга, Джорджтаунский университет и крупные издательства [11:46]. Результатом стал датасет CORD-19 (COVID Open Research Dataset), содержащий более 200 000 машиночитаемых научных статей, обновляемых ежедневно [12:27]. На базе этих данных платформа Kaggle провела свои самые популярные соревнования, что помогло врачам и исследователям быстрее находить ответы на клинические вопросы [12:53].

## 💰 Секрет успеха стартапов: где брать данные
[[JUMP:13:31]]

Как успешный серийный предприниматель, Этциони считает «грязным маленьким секретом» больших данных тот факт, что ценность представляют не просто данные, а их разметка (лейблинг) [14:10]. Его наиболее успешная компания Farecast (проданная Microsoft в 2008 году), предсказывавшая цены на авиабилеты, оперировала триллионом размеченных точек данных [14:55].

Механизм автоматической разметки в Farecast:

1.  Система делает прогноз на определенную дату (например, 1 декабря), что цена вырастет через неделю [15:34].
2.  Через неделю время само «размечает» данные: мы просто смотрим, сбылся прогноз или нет [15:46].
3.  Пассаж времени превращает обычные данные в обучающую выборку без ручного труда.

Этот же принцип «саморазметки» (Self-labeling), по словам Этциони, лежит в основе современных моделей вроде BERT, RoBERTa или GPT-3 [16:52]. Они используют последовательную природу языка, маскируя слова и пытаясь их предсказать, что позволяет обучаться на огромных массивах неразмеченного текста [17:19].

## 🍃 Будущее нейросетей и концепция Green AI
[[JUMP:18:16]]

Этциони признает, что ранее ошибался в своих прогнозах, ожидая плато в росте размеров нейросетевых моделей [18:46]. По его нынешнему мнению, модели продолжат расти, пока индустрия не столкнется с серьезным пределом эффективности [19:11]. Однако параллельно с «грубой силой» огромных моделей ученый выделяет направление оптимизации.

Он приводит аналогию с шахматами: если раньше для игры требовались суперкомпьютеры и специализированные чипы, то сегодня мощные программы работают на обычных ноутбуках [19:51]. В AI2 активно продвигают концепцию Green AI («Зеленый ИИ»), которая призывает учитывать эффективность при публикации исследований [21:09].

Основные тезисы Green AI:

*   Исследования не должны быть доступны только корпорациям с бюджетами в миллионы долларов на обучение одной модели [21:40].
*   Важно поощрять создание лучших моделей при ограниченном бюджете (например, до $1000) [21:53].
*   Проект «NLP In A Box»: разработка возможностей NLP, способных работать локально на смартфоне или ноутбуке для обеспечения приватности и работы без интернета [22:06].

## ⚖️ Регулирование ИИ: аудит против объяснимости
[[JUMP:26:38]]

Обсуждая вопрос государственного регулирования ИИ, Этциони высказывает осторожную позицию. Он предостерегает от попыток «законодательно закрепить ценности внутри технологий» и считает, что нужно позволить «расцветать тысяче цветов» в области исследований [27:58].

Позиция Этциони по регулированию:

1.  **Регулировать нужно приложения, а не исследования.** Например, если алгоритм сканирования резюме дискриминирует женщин, это должно быть запрещено, так как это нарушает закон [28:29].
2.  **Право на аудит важнее права на объяснение.** В ЕС обсуждается право на получение объяснения от ИИ, но для моделей глубокого обучения с миллиардами параметров любые понятные человеку объяснения могут оказаться неточными или вводящими в заблуждение [30:32].
3.  **Создание рынка идей.** Доступ к моделям для аудита должны иметь третьи стороны: ученые, журналисты и некоммерческие организации (например, ACLU), чтобы проверять системы на наличие предвзятости [31:11].

## 🚀 Советы для карьеры в NLP
[[JUMP:31:39]]

Тем, кто хочет начать карьеру в области обработки естественного языка, Орен Этциони дает три ключевых совета:

*   **Освойте фундамент.** Не стоит гнаться за «вкусом месяца» (сегодня это трансформеры). Необходимо глубокое понимание статистики, компьютерных наук и базового машинного обучения [32:09].
*   **Используйте онлайн-курсы.** Этциони считает их крайне эффективным и доступным способом вхождения в профессию [32:39].
*   **Практика на реальных данных.** Ничто не заменит самостоятельную работу над задачей. По мнению ученого, только столкнувшись с реальным датасетом, можно понять, насколько глубоко вы усвоили концепции и где скрываются настоящие сложности [33:19].