Томас Вольф: «Текст — это стена, в которую упирается развитие ИИ»

Сооснователь и главный научный директор Hugging Face Томас Вольф обсуждает в интервью фундаментальные сдвиги в области искусственного интеллекта: от доминирования закрытых проприетарных моделей к масштабным открытым научным коллаборациям. Ключевой темой беседы стал проект Big Science — своего рода «Адронный коллайдер для ИИ», а также переход индустрии от чисто текстовых моделей к воплощенному обучению (Embodied Learning).

🎓 От квантовой физики и права к вершинам ИИ 1:07

Путь Томаса Вольфа в машинное обучение был нелинейным: он защитил докторскую степень по квантовой физике в Париже, после чего неожиданно для многих получил юридическое образование. В течение пяти лет Вольф практиковал как патентный поверенный, работая со стартапами и крупными группами.

Этот опыт, по его словам, помог ему в AI-сфере:

В физике эксперименты длятся годами (например, четыре года на установку криостата), в то время как в ML результаты видны через месяцы или даже дни.
Юридическая практика приучила его к написанию текстов, что позже трансформировалось в страсть к документированию исследований и написанию книг.
Работа с патентами в 2014 году позволила увидеть зарождение глубокого обучения — Вольф заметил, что уравнения нейросетей во многом напоминают физические формулы, например, концепцию свободной энергии.

В Hugging Face Томас попал по приглашению сооснователей Жюльена Шомона и Клемана Деланг в период, когда компания еще занималась созданием чат-ботов и игр. Переломный момент наступил в 2019 году: успех их open-source инструментов (в частности, библиотеки Transformers) заставил команду полностью сменить бизнес-модель и сфокусироваться на открытой науке.

🌍 Big Science: «CERN для искусственного интеллекта» 9:49

Одним из самых амбициозных проектов под руководством Вольфа стала инициатива Big Science. По мнению гостя, современные большие языковые модели (LLM) часто создаются закрытыми группами из пяти человек, что ограничивает прозрачность науки. В противовес этому Big Science была построена по модели крупных физических коллабораций, таких как CERN.

Основные характеристики и цифры проекта:

Вычислительные мощности: Проект получил грант на 5 миллионов GPU-часов на французском суперкомпьютере Jean Zay.
Инфраструктура: Кластер Jean Zay насчитывает более 3000 графических процессоров.
Участники: В проекте зарегистрировано более 1000 исследователей из индустрии и академической среды, из которых около 200 проявляют ежедневную активность.
Коллаборация гигантов: По утверждению Вольфа, это первый проект, где сотрудники Google, Meta, NVIDIA и Microsoft совместно обучают одну модель.

Целью проекта является создание полностью открытой многоязычной модели. Томас Вольф подчеркивает, что Big Science — это не просто обучение нейросети, а создание «артефактов», доступных всему сообществу, включая детальную документацию данных и процесса обучения.

📊 Качество данных против «высасывания интернета» 15:17

В индустрии долгое время доминировал подход «просто забросьте побольше данных в модель», но Вольф считает, что мы упираемся в стену. Эксперименты команды показали, что модель на 13 миллиардов параметров, обученная на «сыром» Common Crawl, демонстрирует плохие результаты из-за низкого качества данных.

Для Big Science был выбран путь ручной курации:

Объем финального датасета составил 800 гигабайт.
Вместо автоматического парсинга сети к работе привлекли носителей языков, которые отбирали качественные источники.
Особое внимание уделили юридическим аспектам и управлению данными, чтобы исследователи могли изучать, что именно «видела» модель во время обучения.

Томас полагает, что открытые датасеты живут дольше, чем сами модели, и являются более ценным ресурсом для науки.

🤖 Воплощенное обучение и «стена» текстовых моделей 25:44

Томас Вольф выдвигает тезис, что использование одного лишь текста недостаточно для моделирования реального мира. Он считает, что современные LLM страдают от отсутствия «теории разума» и понимания контекста, так как они не взаимодействуют с миром так, как это делают люди.

Перспективы развития, по мнению гостя:

Мультимодальность: Объединение текста, зрения и звука в единых архитектурах на базе трансформеров.
Embodied Learning (Воплощенное обучение): Обучение агентов в виртуальных средах (Unity, Unreal Engine), где язык связан с действием.
Синтетические данные: Создание контролируемых виртуальных миров для генерации данных, что поможет решить проблемы предвзятости (bias) и защиты персональной информации (PII).

Однако на этом пути есть препятствия. Вольф отмечает огромный «разрыв в инструментарии»: исследователям NLP сложно переходить в 3D-миры, так как это требует изучения C# или C++. Hugging Face работает над созданием более простых интерфейсов, чтобы ML-инженеры могли использовать богатые возможности игровых движков без необходимости становиться разработчиками игр.

🛠 Инструменты измерения и «Парадокс трансформеров» 35:47

Архитектура Transformer, по мнению Вольфа, парадоксально проста по сравнению с прошлыми моделями вроде LSTM. Именно эта простота позволяет исследователям переключить внимание с проектирования архитектур на более важные вещи: качество входных данных и процедуры обучения.

Тем не менее, индустрии катастрофически не хватает инструментов для анализа данных. Вольф сравнивает ситуацию: если кто-то опубликует модель без метрик, это сочтут странным, но публикация огромных датасетов без детального анализа — сегодня норма. Hugging Face совместно с такими учеными, как Маргарет Митчелл и Саша Лучиони, разрабатывает Data Measurement Tool. Этот инструмент позволяет:

Оценивать словарное распределение (закон Ципфа).
Находить корреляции, указывающие на социальные предрассудки (например, связь слов «врач» и «мужчина»).
Выявлять дубликаты, которые часто встречаются даже в классических датасетах типа SQUAD.

📚 Будущее в книгах и коде 46:49

В завершение беседы Томас рассказал о выходе своей книги «Natural Language Processing with Transformers», написанной в соавторстве с Льюисом Танстоллом и Леандро фон Веррой. Книга построена на базе инструментов nbdev, что позволяет читателю изучать теорию одновременно с кодом в Jupyter-ноутбуках.

Интересный факт: на обложке книги от издательства O'Reilly изображен попугай. Томас подтвердил, что это была случайная ирония от издательства, которую авторы с радостью приняли как отсылку к знаменитой статье о «стохастических попугаях». В честь этого обучаемую в последней главе модель на 1 миллиард параметров назвали CodeParrot.

По мнению Вольфа, текущий момент в ИИ — это «новое начало», где границы между задачами (классификация, ответы на вопросы) стираются, уступая место универсальным моделям, способным понимать 3D-мир и человеческое взаимодействие.