Орен Этциони — одна из самых значимых фигур в мире обработки естественного языка (NLP) и искусственного интеллекта. В интервью с Эндрю НГ он рассказывает о своем пути от чтения классической литературы по ИИ до руководства Институтом искусственного интеллекта Аллена (AI2), а также делится взглядами на будущее больших языковых моделей и этику регулирования технологий.
🎓 Путь к истокам: от «Гёделя, Эшера, Баха» до Harvard 0:03
Интерес Орена Этциони к искусственному интеллекту зародился еще в старших классах школы под влиянием книги Дугласа Хофштадтера «Гёдель, Эшер, Бах» . По мнению Этциони, вопросы о природе интеллекта и возможности создания мыслящей машины столь же фундаментальны для науки, как вопросы о происхождении Вселенной или основах материи .
Свою практическую деятельность ученый начал с изучения Lisp — одного из старейших языков программирования, который лег в основу многих идей в современных Java и Python . Подготовка к карьере в области ИИ продолжилась в Гарвардском университете (Harvard University) на факультете компьютерных наук . Этциони признается, что на заре своей карьеры он не предвидел нынешнего коммерческого успеха ИИ и революции глубокого обучения (Deep Learning), будучи движимым исключительно интеллектуальным любопытством .
🕸 Open Information Extraction: как научить ИИ читать весь интернет 3:39
Одним из ключевых достижений Этциони стала разработка концепции открытого извлечения информации (Open Information Extraction, Open IE). До этого системы извлечения данных работали в узких рамках: например, искали только события слияний и поглощений (M&A) или информацию о террористических актах .
Этциони предложил подход «ни одного предложения не будет забыто» (no sentence left behind), целью которого было создание всеобъемлющей базы знаний на основе миллиардов предложений в вебе .
Ключевые особенности подхода:
- Использование неконтролируемого обучения (Unsupervised Learning) вместо создания миллионов размеченных примеров вручную .
- Опора на лингвистические инварианты: глаголы (например, «женился», «окончил», «приобрел») часто служат четким сигналом для определения предикатов и их аргументов .
- Универсальность метода: идеи Open IE были успешно реплицированы для испанского, арабского, корейского и китайского языков .
🔬 Проект Semantic Scholar и борьба с COVID-19 7:59
Возглавляемый Этциони институт AI2 (некоммерческая организация, основанная покойным Полом Алленом) запустил проект Semantic Scholar для борьбы с «информационным шумом» в науке . Поскольку объем научных публикаций удваивается каждые несколько лет, ученым становится невозможно отслеживать все важные работы в своей области.
Функционал Semantic Scholar включает:
- Создание автоматических сверхкратких резюме (TLDRs) — однострочных описаний сути работы .
- Автоматическое извлечение рисунков и таблиц из PDF-файлов с использованием компьютерного зрения .
- Бесплатный доступ ко всем функциям для экспертов и новичков на сайте semanticscholar.org .
Особую роль проект сыграл в начале пандемии COVID-19. В марте 2020 года по запросу Белого дома AI2 сформировал коалицию, в которую вошли Microsoft, Инициатива Чана — Цукерберга, Джорджтаунский университет и крупные издательства . Результатом стал датасет CORD-19 (COVID Open Research Dataset), содержащий более 200 000 машиночитаемых научных статей, обновляемых ежедневно . На базе этих данных платформа Kaggle провела свои самые популярные соревнования, что помогло врачам и исследователям быстрее находить ответы на клинические вопросы .
💰 Секрет успеха стартапов: где брать данные 13:31
Как успешный серийный предприниматель, Этциони считает «грязным маленьким секретом» больших данных тот факт, что ценность представляют не просто данные, а их разметка (лейблинг) . Его наиболее успешная компания Farecast (проданная Microsoft в 2008 году), предсказывавшая цены на авиабилеты, оперировала триллионом размеченных точек данных .
Механизм автоматической разметки в Farecast:
- Система делает прогноз на определенную дату (например, 1 декабря), что цена вырастет через неделю .
- Через неделю время само «размечает» данные: мы просто смотрим, сбылся прогноз или нет .
- Пассаж времени превращает обычные данные в обучающую выборку без ручного труда.
Этот же принцип «саморазметки» (Self-labeling), по словам Этциони, лежит в основе современных моделей вроде BERT, RoBERTa или GPT-3 . Они используют последовательную природу языка, маскируя слова и пытаясь их предсказать, что позволяет обучаться на огромных массивах неразмеченного текста .
🍃 Будущее нейросетей и концепция Green AI 18:16
Этциони признает, что ранее ошибался в своих прогнозах, ожидая плато в росте размеров нейросетевых моделей . По его нынешнему мнению, модели продолжат расти, пока индустрия не столкнется с серьезным пределом эффективности . Однако параллельно с «грубой силой» огромных моделей ученый выделяет направление оптимизации.
Он приводит аналогию с шахматами: если раньше для игры требовались суперкомпьютеры и специализированные чипы, то сегодня мощные программы работают на обычных ноутбуках . В AI2 активно продвигают концепцию Green AI («Зеленый ИИ»), которая призывает учитывать эффективность при публикации исследований .
Основные тезисы Green AI:
- Исследования не должны быть доступны только корпорациям с бюджетами в миллионы долларов на обучение одной модели .
- Важно поощрять создание лучших моделей при ограниченном бюджете (например, до $1000) .
- Проект «NLP In A Box»: разработка возможностей NLP, способных работать локально на смартфоне или ноутбуке для обеспечения приватности и работы без интернета .
⚖️ Регулирование ИИ: аудит против объяснимости 26:38
Обсуждая вопрос государственного регулирования ИИ, Этциони высказывает осторожную позицию. Он предостерегает от попыток «законодательно закрепить ценности внутри технологий» и считает, что нужно позволить «расцветать тысяче цветов» в области исследований .
Позиция Этциони по регулированию:
- Регулировать нужно приложения, а не исследования. Например, если алгоритм сканирования резюме дискриминирует женщин, это должно быть запрещено, так как это нарушает закон .
- Право на аудит важнее права на объяснение. В ЕС обсуждается право на получение объяснения от ИИ, но для моделей глубокого обучения с миллиардами параметров любые понятные человеку объяснения могут оказаться неточными или вводящими в заблуждение .
- Создание рынка идей. Доступ к моделям для аудита должны иметь третьи стороны: ученые, журналисты и некоммерческие организации (например, ACLU), чтобы проверять системы на наличие предвзятости .
🚀 Советы для карьеры в NLP 31:39
Тем, кто хочет начать карьеру в области обработки естественного языка, Орен Этциони дает три ключевых совета:
- Освойте фундамент. Не стоит гнаться за «вкусом месяца» (сегодня это трансформеры). Необходимо глубокое понимание статистики, компьютерных наук и базового машинного обучения .
- Используйте онлайн-курсы. Этциони считает их крайне эффективным и доступным способом вхождения в профессию .
- Практика на реальных данных. Ничто не заменит самостоятельную работу над задачей. По мнению ученого, только столкнувшись с реальным датасетом, можно понять, насколько глубоко вы усвоили концепции и где скрываются настоящие сложности .