Орен Этциони: «Регулируйте приложения ИИ, а не фундаментальные исследования»

Орен Этциони — одна из самых значимых фигур в мире обработки естественного языка (NLP) и искусственного интеллекта. В интервью с Эндрю НГ он рассказывает о своем пути от чтения классической литературы по ИИ до руководства Институтом искусственного интеллекта Аллена (AI2), а также делится взглядами на будущее больших языковых моделей и этику регулирования технологий.

🎓 Путь к истокам: от «Гёделя, Эшера, Баха» до Harvard 0:03

Интерес Орена Этциони к искусственному интеллекту зародился еще в старших классах школы под влиянием книги Дугласа Хофштадтера «Гёдель, Эшер, Бах» . По мнению Этциони, вопросы о природе интеллекта и возможности создания мыслящей машины столь же фундаментальны для науки, как вопросы о происхождении Вселенной или основах материи .

Свою практическую деятельность ученый начал с изучения Lisp — одного из старейших языков программирования, который лег в основу многих идей в современных Java и Python . Подготовка к карьере в области ИИ продолжилась в Гарвардском университете (Harvard University) на факультете компьютерных наук . Этциони признается, что на заре своей карьеры он не предвидел нынешнего коммерческого успеха ИИ и революции глубокого обучения (Deep Learning), будучи движимым исключительно интеллектуальным любопытством .

🕸 Open Information Extraction: как научить ИИ читать весь интернет 3:39

Одним из ключевых достижений Этциони стала разработка концепции открытого извлечения информации (Open Information Extraction, Open IE). До этого системы извлечения данных работали в узких рамках: например, искали только события слияний и поглощений (M&A) или информацию о террористических актах .

Этциони предложил подход «ни одного предложения не будет забыто» (no sentence left behind), целью которого было создание всеобъемлющей базы знаний на основе миллиардов предложений в вебе .

Ключевые особенности подхода:

Использование неконтролируемого обучения (Unsupervised Learning) вместо создания миллионов размеченных примеров вручную .
Опора на лингвистические инварианты: глаголы (например, «женился», «окончил», «приобрел») часто служат четким сигналом для определения предикатов и их аргументов .
Универсальность метода: идеи Open IE были успешно реплицированы для испанского, арабского, корейского и китайского языков .

🔬 Проект Semantic Scholar и борьба с COVID-19 7:59

Возглавляемый Этциони институт AI2 (некоммерческая организация, основанная покойным Полом Алленом) запустил проект Semantic Scholar для борьбы с «информационным шумом» в науке . Поскольку объем научных публикаций удваивается каждые несколько лет, ученым становится невозможно отслеживать все важные работы в своей области.

Функционал Semantic Scholar включает:

Создание автоматических сверхкратких резюме (TLDRs) — однострочных описаний сути работы .
Автоматическое извлечение рисунков и таблиц из PDF-файлов с использованием компьютерного зрения .
Бесплатный доступ ко всем функциям для экспертов и новичков на сайте semanticscholar.org .

Особую роль проект сыграл в начале пандемии COVID-19. В марте 2020 года по запросу Белого дома AI2 сформировал коалицию, в которую вошли Microsoft, Инициатива Чана — Цукерберга, Джорджтаунский университет и крупные издательства . Результатом стал датасет CORD-19 (COVID Open Research Dataset), содержащий более 200 000 машиночитаемых научных статей, обновляемых ежедневно . На базе этих данных платформа Kaggle провела свои самые популярные соревнования, что помогло врачам и исследователям быстрее находить ответы на клинические вопросы .

💰 Секрет успеха стартапов: где брать данные 13:31

Как успешный серийный предприниматель, Этциони считает «грязным маленьким секретом» больших данных тот факт, что ценность представляют не просто данные, а их разметка (лейблинг) . Его наиболее успешная компания Farecast (проданная Microsoft в 2008 году), предсказывавшая цены на авиабилеты, оперировала триллионом размеченных точек данных .

Механизм автоматической разметки в Farecast:

Система делает прогноз на определенную дату (например, 1 декабря), что цена вырастет через неделю .
Через неделю время само «размечает» данные: мы просто смотрим, сбылся прогноз или нет .
Пассаж времени превращает обычные данные в обучающую выборку без ручного труда.

Этот же принцип «саморазметки» (Self-labeling), по словам Этциони, лежит в основе современных моделей вроде BERT, RoBERTa или GPT-3 . Они используют последовательную природу языка, маскируя слова и пытаясь их предсказать, что позволяет обучаться на огромных массивах неразмеченного текста .

🍃 Будущее нейросетей и концепция Green AI 18:16

Этциони признает, что ранее ошибался в своих прогнозах, ожидая плато в росте размеров нейросетевых моделей . По его нынешнему мнению, модели продолжат расти, пока индустрия не столкнется с серьезным пределом эффективности . Однако параллельно с «грубой силой» огромных моделей ученый выделяет направление оптимизации.

Он приводит аналогию с шахматами: если раньше для игры требовались суперкомпьютеры и специализированные чипы, то сегодня мощные программы работают на обычных ноутбуках . В AI2 активно продвигают концепцию Green AI («Зеленый ИИ»), которая призывает учитывать эффективность при публикации исследований .

Основные тезисы Green AI:

Исследования не должны быть доступны только корпорациям с бюджетами в миллионы долларов на обучение одной модели .
Важно поощрять создание лучших моделей при ограниченном бюджете (например, до $1000) .
Проект «NLP In A Box»: разработка возможностей NLP, способных работать локально на смартфоне или ноутбуке для обеспечения приватности и работы без интернета .

⚖️ Регулирование ИИ: аудит против объяснимости 26:38

Обсуждая вопрос государственного регулирования ИИ, Этциони высказывает осторожную позицию. Он предостерегает от попыток «законодательно закрепить ценности внутри технологий» и считает, что нужно позволить «расцветать тысяче цветов» в области исследований .

Позиция Этциони по регулированию:

Регулировать нужно приложения, а не исследования. Например, если алгоритм сканирования резюме дискриминирует женщин, это должно быть запрещено, так как это нарушает закон .
Право на аудит важнее права на объяснение. В ЕС обсуждается право на получение объяснения от ИИ, но для моделей глубокого обучения с миллиардами параметров любые понятные человеку объяснения могут оказаться неточными или вводящими в заблуждение .
Создание рынка идей. Доступ к моделям для аудита должны иметь третьи стороны: ученые, журналисты и некоммерческие организации (например, ACLU), чтобы проверять системы на наличие предвзятости .

🚀 Советы для карьеры в NLP 31:39

Тем, кто хочет начать карьеру в области обработки естественного языка, Орен Этциони дает три ключевых совета:

Освойте фундамент. Не стоит гнаться за «вкусом месяца» (сегодня это трансформеры). Необходимо глубокое понимание статистики, компьютерных наук и базового машинного обучения .
Используйте онлайн-курсы. Этциони считает их крайне эффективным и доступным способом вхождения в профессию .
Практика на реальных данных. Ничто не заменит самостоятельную работу над задачей. По мнению ученого, только столкнувшись с реальным датасетом, можно понять, насколько глубоко вы усвоили концепции и где скрываются настоящие сложности .