Тан Цзе о WuDao 2.0: «ИИ превзойдет человека через 20 лет»

Китайский проект WuDao 2.0 на текущий момент является одной из самых масштабных систем искусственного интеллекта в мире, обладая 1,7 трлн параметров. В этом интервью ведущий подкаста Eye on AI Крейг Смит вместе с исследователем Коннором Лихи беседуют с Тан Цзе, профессором Университета Цинхуа и руководителем проекта WuDao, о технических особенностях модели, стратегии её развития и перспективах глобального сотрудничества ученых в условиях политической напряженности.

🤖 Архитектура и возможности WuDao 2.0 0:16

WuDao 2.0 представляет собой разреженную мультимодальную модель, обученную на 4,9 ТБ данных, включая изображения и тексты. В отличие от плотных языковых моделей, таких как GPT-3, WuDao делает ставку на масштаб и мультимодальность, объединяя китайский и английский языки с визуальными данными.

Ключевые технические аспекты и инновации:

Обучающая цель (GLM): Команда предпочла использовать объект обучения GLM (General Language Model) вместо классических методов (LM или MLM). По словам Тан Цзе, это позволяет объединить задачи понимания естественного языка (NLU) и генеративные способности в рамках одной унифицированной модели.
Устойчивость обучения: Внедрение техники «снижения точности» (precision bottleneck relaxation, PB-relax) и нормализации «сэндвич-слоя» (sanivation) позволило сделать процесс обучения более стабильным.
Мультимодальность: Система способна преобразовывать текст в изображение и обратно. Например, пользователь может запросить изображение по текстовому описанию, причем, как утверждает профессор, производительность WuDao по ряду метрик, включая FID (Fréchet Inception Distance), превосходит аналоги от OpenAI.
FastMoE: Команда также разработала собственный алгоритм Mixture of Experts (MoE), который, по заявлению Тан Цзе, работает быстрее аналогичных решений от Google и доступен в открытом доступе.

📈 Масштабирование и будущие планы 9:11

Команда проекта уже имеет опыт работы с экстремальными объемами данных. Хотя текущая модель WuDao 2.0 оперирует 1,7 трлн параметров, исследователи экспериментировали с созданием системы на 100 трлн параметров. Тан Цзе подчеркнул, что они не доводили эту модель до полной сходимости, но доказали саму техническую возможность обучения таких гигантских систем на суперкомпьютере Sunway.

Приоритеты развития проекта:

Практическое применение: Команда сотрудничает с более чем 30 крупными китайскими компаниями для внедрения ИИ в продукты с миллионами или миллиардами пользователей.
Генерация видео: Ведется работа над созданием моделей, способных генерировать видеоконтент на основе текстовых описаний.
Повышение точности: Одна из главных задач — сделать результаты генерации более фактическими и точными, возможно, путем объединения модели с графами знаний.
Эффективное дообучение: Тан Цзе представил алгоритм P-Tuning, позволяющий эффективно дообучать модель, используя менее 1% данных.

🌍 Геополитика и будущее ИИ 17:17

Обсуждая риски развития сверхразумного ИИ, Тан Цзе выразил уверенность в необходимости государственного регулирования, особенно в сфере «когнитивного ИИ», который может быть потенциально опасен. При этом он придерживается оптимистичных взглядов на будущее человечества: по мнению профессора, через 10–20 лет машины превзойдут людей в большинстве когнитивных задач, а через 50 лет ИИ может обрести некое подобие сознания.

Что касается противостояния между США и Китаем, Тан Цзе настаивает на важности открытости науки:

Глобальное благо: Профессор считает, что научные исследования должны приносить пользу всему человечеству, а не ограничиваться одной страной.
Сотрудничество: Несмотря на то, что правительства могут конкурировать в военных технологиях, исследовательское сообщество, по словам гостя, должно оставаться связующим звеном.
Зависимость: Тан Цзе признал, что ограничение сотрудничества с США может замедлить прогресс китайских разработок, учитывая текущую зависимость от высокопроизводительного оборудования.