Томас Вольф: «Текст — это стена, в которую упирается развитие ИИ»

The TWIML AI Podcast 1,3 тыс. 52 мин 5 мин 21.03.2022
Главное

Сооснователь и главный научный директор Hugging Face Томас Вольф обсуждает в интервью фундаментальные сдвиги в области искусственного интеллекта: от доминирования закрытых проприетарных моделей к масштабным открытым научным коллаборациям. Ключевой темой беседы стал проект Big Science — своего рода «Адронный коллайдер для ИИ», а также переход индустрии от чисто текстовых моделей к воплощенному обучению (Embodied Learning).

🎓 От квантовой физики и права к вершинам ИИ 1:07

Путь Томаса Вольфа в машинное обучение был нелинейным: он защитил докторскую степень по квантовой физике в Париже, после чего неожиданно для многих получил юридическое образование. В течение пяти лет Вольф практиковал как патентный поверенный, работая со стартапами и крупными группами.

Этот опыт, по его словам, помог ему в AI-сфере:

В Hugging Face Томас попал по приглашению сооснователей Жюльена Шомона и Клемана Деланг в период, когда компания еще занималась созданием чат-ботов и игр. Переломный момент наступил в 2019 году: успех их open-source инструментов (в частности, библиотеки Transformers) заставил команду полностью сменить бизнес-модель и сфокусироваться на открытой науке.

🌍 Big Science: «CERN для искусственного интеллекта» 9:49

Одним из самых амбициозных проектов под руководством Вольфа стала инициатива Big Science. По мнению гостя, современные большие языковые модели (LLM) часто создаются закрытыми группами из пяти человек, что ограничивает прозрачность науки. В противовес этому Big Science была построена по модели крупных физических коллабораций, таких как CERN.

Основные характеристики и цифры проекта:

Целью проекта является создание полностью открытой многоязычной модели. Томас Вольф подчеркивает, что Big Science — это не просто обучение нейросети, а создание «артефактов», доступных всему сообществу, включая детальную документацию данных и процесса обучения.

📊 Качество данных против «высасывания интернета» 15:17

В индустрии долгое время доминировал подход «просто забросьте побольше данных в модель», но Вольф считает, что мы упираемся в стену. Эксперименты команды показали, что модель на 13 миллиардов параметров, обученная на «сыром» Common Crawl, демонстрирует плохие результаты из-за низкого качества данных.

Для Big Science был выбран путь ручной курации:

Томас полагает, что открытые датасеты живут дольше, чем сами модели, и являются более ценным ресурсом для науки.

🤖 Воплощенное обучение и «стена» текстовых моделей 25:44

Томас Вольф выдвигает тезис, что использование одного лишь текста недостаточно для моделирования реального мира. Он считает, что современные LLM страдают от отсутствия «теории разума» и понимания контекста, так как они не взаимодействуют с миром так, как это делают люди.

Перспективы развития, по мнению гостя:

  1. Мультимодальность: Объединение текста, зрения и звука в единых архитектурах на базе трансформеров.
  2. Embodied Learning (Воплощенное обучение): Обучение агентов в виртуальных средах (Unity, Unreal Engine), где язык связан с действием.
  3. Синтетические данные: Создание контролируемых виртуальных миров для генерации данных, что поможет решить проблемы предвзятости (bias) и защиты персональной информации (PII).

Однако на этом пути есть препятствия. Вольф отмечает огромный «разрыв в инструментарии»: исследователям NLP сложно переходить в 3D-миры, так как это требует изучения C# или C++. Hugging Face работает над созданием более простых интерфейсов, чтобы ML-инженеры могли использовать богатые возможности игровых движков без необходимости становиться разработчиками игр.

🛠 Инструменты измерения и «Парадокс трансформеров» 35:47

Архитектура Transformer, по мнению Вольфа, парадоксально проста по сравнению с прошлыми моделями вроде LSTM. Именно эта простота позволяет исследователям переключить внимание с проектирования архитектур на более важные вещи: качество входных данных и процедуры обучения.

Тем не менее, индустрии катастрофически не хватает инструментов для анализа данных. Вольф сравнивает ситуацию: если кто-то опубликует модель без метрик, это сочтут странным, но публикация огромных датасетов без детального анализа — сегодня норма. Hugging Face совместно с такими учеными, как Маргарет Митчелл и Саша Лучиони, разрабатывает Data Measurement Tool. Этот инструмент позволяет:

📚 Будущее в книгах и коде 46:49

В завершение беседы Томас рассказал о выходе своей книги «Natural Language Processing with Transformers», написанной в соавторстве с Льюисом Танстоллом и Леандро фон Веррой. Книга построена на базе инструментов nbdev, что позволяет читателю изучать теорию одновременно с кодом в Jupyter-ноутбуках.

Интересный факт: на обложке книги от издательства O'Reilly изображен попугай. Томас подтвердил, что это была случайная ирония от издательства, которую авторы с радостью приняли как отсылку к знаменитой статье о «стохастических попугаях». В честь этого обучаемую в последней главе модель на 1 миллиард параметров назвали CodeParrot.

По мнению Вольфа, текущий момент в ИИ — это «новое начало», где границы между задачами (классификация, ответы на вопросы) стираются, уступая место универсальным моделям, способным понимать 3D-мир и человеческое взаимодействие.

💬 Цитаты

«Мы упираемся в стену в NLP, где одного текста уже недостаточно. Вы не можете смоделировать весь мир только на основе текста.»

Томас Вольф 09:09

«Я думаю, что путь, по которому мы идем, создавая здоровое исследовательское сообщество, важнее, чем то, что именно мы построим в итоге.»

Томас Вольф 07:37

«Трансформеры парадоксально просты, и это позволяет нам сфокусироваться на более важных вещах: данных и процедурах обучения.»

Томас Вольф 35:52
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Embodied Learning
Концепция обучения ИИ, при которой агент обучается через взаимодействие с окружающей средой, аналогично человеку.
Few-shot learning
Способность модели решать задачу, имея лишь несколько примеров в качестве контекста.
Common Crawl
Открытый архив данных, собранных путем сканирования всей сети интернет.
PII
Personally Identifiable Information — персональные данные, позволяющие идентифицировать человека.
📊 Цифры
🗓 Хронология
  1. 2014 Томас Вольф замечает сходство между уравнениями глубокого обучения и физикой, работая патентным поверенным.
  2. 2016 Основание Hugging Face как компании по созданию чат-ботов и игр.
  3. 2019 Pivot (разворот) компании в сторону открытого исходного кода и библиотеки Transformers.
  4. 2021 Запуск проекта Big Science по созданию крупнейшей открытой языковой модели.
  5. 2022 Выход книги «Natural Language Processing with Transformers».
⚖️ Другая сторона
Искусственный интеллект Hugging Face Big Science Томас Вольф Transformers Embodied Learning