Meta представила архитектуру Large Concept Models для имитации человеческого мышления

Wes Roth 70,8 тыс. 12 мин 3 мин 28.12.2024
Главное

Исследовательская группа Meta AI представила новую архитектуру нейросетей, которая может радикально изменить подход к обучению искусственного интеллекта. Вместо привычных токенов — фрагментов слов или изображений — модель оперирует абстрактными «концептами», имитируя человеческий способ мышления и планирования.

🧠 От токенов к смыслам: новая парадигма Large Concept Models 0:00

На протяжении последних лет развитие ИИ шло по пути количественного масштабирования: больше данных, больше параметров, больше вычислительных мощностей. Однако существующие большие языковые модели (LLM) имеют фундаментальное ограничение: они работают на уровне токенов . Токен — это минимальная единица данных, будь то слог, пробел или знак препинания. Например, в предложении из семи слов может быть восемь и более токенов .

Ведущий канала Вес Рот (Wes Roth) отмечает, что такая архитектура вступает в резкое противоречие с тем, как функционирует человеческий интеллект. Люди не формулируют мысли по буквам или слогам; мы оперируем абстракциями высокого уровня . Meta предлагает перенести этот принцип в нейросети, создав Large Concept Models (LCM) — модели больших концептов .

Основные отличия LCM от традиционных LLM:

📉 Эффективность малых форм: вызов DeepSeek и ответ Meta 2:32

Обсуждение новой архитектуры происходит на фоне недавнего релиза китайской модели DeepSeek V3, которая шокировала индустрию своей эффективностью. Разработчикам DeepSeek удалось добиться выдающихся результатов в задачах на рассуждение (reasoning), затратив в 10 раз меньше вычислительных ресурсов, чем Meta при обучении своих моделей .

По мнению Веса Рота, индустрия сейчас наблюдает «обратное движение маятника»: фокус смещается с гигантских моделей на поиск архитектурных прорывов, позволяющих делать нейросети компактнее и умнее . Meta начала тестирование LCM с крайне малых масштабов:

  1. Nano-версия: Модель с 1,6 млрд параметров, обученная на 1,3 трлн токенов .
  2. Small-версия: Модель, масштабированная до 7 млрд параметров .

Несмотря на скромные по современным меркам размеры (для сравнения: флагманская Llama 3 имеет 405 млрд параметров), LCM показала впечатляющие результаты в задачах суммаризации текстов и «развертывания» кратких тезисов (summary expansion) .

🗣️ Аналогия с публичным выступлением 5:47

Чтобы объяснить преимущество концептуального подхода, исследователи Meta приводят аналогию с выступлением ученого на конференции . Опытный спикер не читает по бумажке каждое слово (что звучит роботизировано), а держит перед собой карточку с планом — набором ключевых идей (концептов).

Преимущества такого подхода:

🚀 Будущее архитектуры: контекст и генерализация 9:57

Одним из ключевых технических преимуществ LCM является решение проблемы «окна контекста». Поскольку модель оперирует концептами-предложениями, а не отдельными словами, последовательности данных становятся короче на порядок (минимум в 10 раз) . Это позволяет упаковывать в память нейросети гораздо больше фактической информации.

Результаты первых тестов Meta:

Вес Рот подчеркивает, что Meta традиционно придерживается политики открытого исходного кода (open source), предоставляя свои наработки сообществу . Хотя LCM пока не достигли показателей лучших современных LLM, автор считает данное направление наиболее перспективным . Использование концептов вместо токенов может стать тем самым «недостающим звеном», которое позволит ИИ не просто имитировать речь, а подлинно планировать и рассуждать, подобно человеку .

💬 Цитаты

«Текущая технология LLM заключается в обработке ввода и генерации вывода на уровне токенов. Это резко контрастирует с людьми, которые работают на нескольких уровнях абстракции.»

Вес Рот (цитирует документ Meta) 1:42

«Концепты не зависят от языка и модальности и представляют собой идею или действие высокого уровня в потоке мысли.»

Вес Рот 2:07
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Токен
Базовая единица данных (часть слова, символ или пиксель), которую обрабатывает нейросеть.
Zero-shot generalization
Способность модели успешно выполнять задачу, примеры которой не встречались ей в процессе обучения.
Модальность
Тип входных данных для ИИ, например, текст, изображение, аудио или видео.
📊 Цифры
🗓 Хронология
  1. Декабрь 2024 Релиз китайской модели DeepSeek V3, изменившей представления об эффективности обучения ИИ.
  2. Январь 2025 Публикация Meta AI документа о разработке Large Concept Models (согласно контексту видео).
⚖️ Другая сторона
Искусственный интеллект Meta AI Large Concept Models Llama DeepSeek V3 Вес Рот