# Доуве Кила: «Мы склонны наделять ИИ сознанием только потому, что он заговорил»

Источник: https://www.youtube.com/watch?v=6P2i3tP0nsQ
Канал: The TWIML AI Podcast
Опубликовано: 29.08.2022

---

В новом эпизоде подкаста TWIML AI Джон Боханнон из компании Primer беседует с Доуве Кила, недавно назначенным руководителем отдела исследований в Hugging Face. Обсуждение охватывает путь компании от узкоспециализированного NLP-стартапа до центрального узла всей экосистемы ИИ, а также намечает контуры будущего, где модели перестанут быть просто «статистическими попугаями» и обретут понимание мира через мультимодальность и взаимодействие.

## 🤖 Трансформация Hugging Face: из NLP в универсальный ИИ
[[JUMP:02:50]]

Хотя Hugging Face получила мировую известность благодаря библиотеке Transformers и работе с текстом, Доуве Кила подчеркивает, что компания переросла рамки Natural Language Processing (NLP). Сейчас организация позиционирует себя как общая AI-компания, активно развивающая направления компьютерного зрения и распознавания речи [03:03].

По словам Кила, архитектура исследований в Hugging Face представляет собой «золотую середину» между двумя крайностями индустрии:

*   **Снизу вверх (Bottom-up):** Модель, принятая в FAIR (Meta) или Google Brain, где ученые обладают большой свободой, но с трудом объединяются для реализации масштабных, прорывных проектов [07:24].
*   **Сверху вниз (Top-down):** Модель DeepMind или OpenAI, которую Кила называет режимом «просвещенной диктатуры», где лидеры (Демис Хассабис или Илья Суцкевер) четко определяют видение и задачи [08:02].

Hugging Face стремится сочетать академическую свободу с гибкостью и мощным сообществом, что позволяет реализовывать такие гигантские инициативы, как Big Science [08:16]. На данный момент исследовательская команда внутри компании насчитывает около 30–35 человек, которые координируют работу тысяч внешних добровольцев [08:56].

## 🌍 Проект Big Science и рождение модели BLOOM
[[JUMP:20:15]]

Одним из главных достижений компании стал проект Big Science, итогом которого стала модель BLOOM. Кила называет её первой по-настоящему крупной мультиязычной языковой моделью [20:28].

Ключевые особенности проекта:

*   **Открытость:** Процесс обучения можно было отслеживать в реальном времени в Twitter, а промежуточные чекпоинты (checkpoints) выкладывались для публичного тестирования [20:41].
*   **Курирование данных:** В отличие от обычного бесконтрольного сканирования интернета (crawl), данные для BLOOM собирались и проверялись экспертами-носителями для более чем 45 языков, включая редкие африканские диалекты [25:30].
*   **Уникальная токенизация:** Исследовательская группа провела глубокий анализ того, как разбивать текст на части (токены), чтобы эффективно представлять разные языковые группы в рамках одного словаря [21:57].

Кила отмечает, что для него как для европейца крайне важна миссия демократизации технологий. Он считает, что англоцентричность современного ИИ создает барьер для миллионов людей, и BLOOM призван этот барьер разрушить [18:44].

## 🧠 Проблема «заземления» и истинного понимания
[[JUMP:10:42]]

Центральной темой научной дискуссии стало понятие «заземления» (grounding) смысла. Кила, будучи философом по образованию, утверждает, что современные модели типа GPT-3 ограничены, так как они обучаются только на тексте.

В своей диссертации исследователь разделяет два типа заземления:

1.  **Референциальное:** Способность модели соотнести слово «банан» с конкретным объектом или пикселями на картинке [11:21].
2.  **Репрезентативное:** Целостное представление концепта. Например, знать, как «скрипка» выглядит, звучит, ощущается в руках и даже пахнет [11:47].

По мнению Кила, именно отсутствие сенсорного опыта и «здравого смысла» (common sense) делает ИИ уязвимым. Мы не описываем словами запах кофе, потому что все люди его знают, и из-за этого в текстовых корпусах (вроде Википедии) отсутствуют важнейшие пласты информации о реальности [13:05].

Другим критическим элементом является **интенциональность** — намерение говорящего изменить состояние сознания собеседника. У языковых моделей сейчас нет целей или истинного намерения, что отделяет их от человеческого уровня понимания [14:36].

## 🧪 Будущее исследований: данные и новые парадигмы
[[JUMP:43:41]]

Доуве Кила выделил три наиболее перспективных направления, которые изменят облик ИИ в ближайшие годы:

*   **Полупараметрические модели (Retrieval-augmented):** Вместо того чтобы пытаться упаковать все знания мира в веса (параметры) нейросети, исследователи предлагают использовать внешние индексы. Модель превращается в «читателя», который может искать актуальную информацию в базе данных (аналог интернета или библиотеки для человека) [44:34].
*   **Data-centric AI (Данноцентричный подход):** Переход от полировки архитектур к глубокому анализу самих обучающих выборок. В Hugging Face разрабатывают инструменты (своеобразный «рентген» для данных), позволяющие видеть смещения и ошибки в датасетах до начала обучения [47:13].
*   **Динамическое состязательное обучение:** Метод «человек в цикле», где люди пытаются намеренно обмануть модель, находя её слабые места, а эти примеры тут же используются для дообучения системы. Это позволяет создавать модели, которые на 10% эффективнее стандартных систем [52:04].

## 🛸 Станет ли ИИ обладателем сознания?
[[JUMP:40:14]]

Обсуждая недавние громкие заявления о «разумности» модели LaMDA от Google, Кила призывает к осторожности. По его мнению, люди эволюционно запрограммированы антропоморфизировать всё, что производит связную речь [41:33].

Тем не менее, он не отрицает возможности появления сильного ИИ (AGI) в будущем. Кила и Боханнон сошлись во мнении, что грань между физическим и виртуальным миром для обучения ИИ может быть стерта. Исследователь полагает, что для обретения смысла модели не обязательно обладать физическим телом робота — достаточно «виртуального воплощения» в сложной симуляции или даже в пространстве интернета и метавселенной [56:09].

Главным вектором развития на ближайшее десятилетие Кила считает открытую науку (Open Science). Только прозрачность разработки позволит гарантировать, что мощные инструменты ИИ не окажутся в «плохих руках» и будут развиваться в этически верном направлении [56:51].