В новом эпизоде подкаста TWIML AI Джон Боханнон из компании Primer беседует с Доуве Кила, недавно назначенным руководителем отдела исследований в Hugging Face. Обсуждение охватывает путь компании от узкоспециализированного NLP-стартапа до центрального узла всей экосистемы ИИ, а также намечает контуры будущего, где модели перестанут быть просто «статистическими попугаями» и обретут понимание мира через мультимодальность и взаимодействие.
🤖 Трансформация Hugging Face: из NLP в универсальный ИИ 2:50
Хотя Hugging Face получила мировую известность благодаря библиотеке Transformers и работе с текстом, Доуве Кила подчеркивает, что компания переросла рамки Natural Language Processing (NLP). Сейчас организация позиционирует себя как общая AI-компания, активно развивающая направления компьютерного зрения и распознавания речи .
По словам Кила, архитектура исследований в Hugging Face представляет собой «золотую середину» между двумя крайностями индустрии:
- Снизу вверх (Bottom-up): Модель, принятая в FAIR (Meta) или Google Brain, где ученые обладают большой свободой, но с трудом объединяются для реализации масштабных, прорывных проектов .
- Сверху вниз (Top-down): Модель DeepMind или OpenAI, которую Кила называет режимом «просвещенной диктатуры», где лидеры (Демис Хассабис или Илья Суцкевер) четко определяют видение и задачи .
Hugging Face стремится сочетать академическую свободу с гибкостью и мощным сообществом, что позволяет реализовывать такие гигантские инициативы, как Big Science . На данный момент исследовательская команда внутри компании насчитывает около 30–35 человек, которые координируют работу тысяч внешних добровольцев .
🌍 Проект Big Science и рождение модели BLOOM 20:15
Одним из главных достижений компании стал проект Big Science, итогом которого стала модель BLOOM. Кила называет её первой по-настоящему крупной мультиязычной языковой моделью .
Ключевые особенности проекта:
- Открытость: Процесс обучения можно было отслеживать в реальном времени в Twitter, а промежуточные чекпоинты (checkpoints) выкладывались для публичного тестирования .
- Курирование данных: В отличие от обычного бесконтрольного сканирования интернета (crawl), данные для BLOOM собирались и проверялись экспертами-носителями для более чем 45 языков, включая редкие африканские диалекты .
- Уникальная токенизация: Исследовательская группа провела глубокий анализ того, как разбивать текст на части (токены), чтобы эффективно представлять разные языковые группы в рамках одного словаря .
Кила отмечает, что для него как для европейца крайне важна миссия демократизации технологий. Он считает, что англоцентричность современного ИИ создает барьер для миллионов людей, и BLOOM призван этот барьер разрушить .
🧠 Проблема «заземления» и истинного понимания 10:42
Центральной темой научной дискуссии стало понятие «заземления» (grounding) смысла. Кила, будучи философом по образованию, утверждает, что современные модели типа GPT-3 ограничены, так как они обучаются только на тексте.
В своей диссертации исследователь разделяет два типа заземления:
- Референциальное: Способность модели соотнести слово «банан» с конкретным объектом или пикселями на картинке .
- Репрезентативное: Целостное представление концепта. Например, знать, как «скрипка» выглядит, звучит, ощущается в руках и даже пахнет .
По мнению Кила, именно отсутствие сенсорного опыта и «здравого смысла» (common sense) делает ИИ уязвимым. Мы не описываем словами запах кофе, потому что все люди его знают, и из-за этого в текстовых корпусах (вроде Википедии) отсутствуют важнейшие пласты информации о реальности .
Другим критическим элементом является интенциональность — намерение говорящего изменить состояние сознания собеседника. У языковых моделей сейчас нет целей или истинного намерения, что отделяет их от человеческого уровня понимания .
🧪 Будущее исследований: данные и новые парадигмы 43:41
Доуве Кила выделил три наиболее перспективных направления, которые изменят облик ИИ в ближайшие годы:
- Полупараметрические модели (Retrieval-augmented): Вместо того чтобы пытаться упаковать все знания мира в веса (параметры) нейросети, исследователи предлагают использовать внешние индексы. Модель превращается в «читателя», который может искать актуальную информацию в базе данных (аналог интернета или библиотеки для человека) .
- Data-centric AI (Данноцентричный подход): Переход от полировки архитектур к глубокому анализу самих обучающих выборок. В Hugging Face разрабатывают инструменты (своеобразный «рентген» для данных), позволяющие видеть смещения и ошибки в датасетах до начала обучения .
- Динамическое состязательное обучение: Метод «человек в цикле», где люди пытаются намеренно обмануть модель, находя её слабые места, а эти примеры тут же используются для дообучения системы. Это позволяет создавать модели, которые на 10% эффективнее стандартных систем .
🛸 Станет ли ИИ обладателем сознания? 40:14
Обсуждая недавние громкие заявления о «разумности» модели LaMDA от Google, Кила призывает к осторожности. По его мнению, люди эволюционно запрограммированы антропоморфизировать всё, что производит связную речь .
Тем не менее, он не отрицает возможности появления сильного ИИ (AGI) в будущем. Кила и Боханнон сошлись во мнении, что грань между физическим и виртуальным миром для обучения ИИ может быть стерта. Исследователь полагает, что для обретения смысла модели не обязательно обладать физическим телом робота — достаточно «виртуального воплощения» в сложной симуляции или даже в пространстве интернета и метавселенной .
Главным вектором развития на ближайшее десятилетие Кила считает открытую науку (Open Science). Только прозрачность разработки позволит гарантировать, что мощные инструменты ИИ не окажутся в «плохих руках» и будут развиваться в этически верном направлении .