Исследовательская группа Meta AI представила новую архитектуру нейросетей, которая может радикально изменить подход к обучению искусственного интеллекта. Вместо привычных токенов — фрагментов слов или изображений — модель оперирует абстрактными «концептами», имитируя человеческий способ мышления и планирования.
🧠 От токенов к смыслам: новая парадигма Large Concept Models 0:00
На протяжении последних лет развитие ИИ шло по пути количественного масштабирования: больше данных, больше параметров, больше вычислительных мощностей. Однако существующие большие языковые модели (LLM) имеют фундаментальное ограничение: они работают на уровне токенов . Токен — это минимальная единица данных, будь то слог, пробел или знак препинания. Например, в предложении из семи слов может быть восемь и более токенов .
Ведущий канала Вес Рот (Wes Roth) отмечает, что такая архитектура вступает в резкое противоречие с тем, как функционирует человеческий интеллект. Люди не формулируют мысли по буквам или слогам; мы оперируем абстракциями высокого уровня . Meta предлагает перенести этот принцип в нейросети, создав Large Concept Models (LCM) — модели больших концептов .
Основные отличия LCM от традиционных LLM:
- Уровень абстракции: Вместо предсказания следующего токена модель работает с семантическими представлениями («концептами»), которые обычно соответствуют целому предложению .
- Агностичность к модальности: Концепт не привязан к конкретному языку, изображению или звуку. Это «чистый смысл», который затем может быть воплощен в любой форме .
- Иерархическая структура: Процесс генерации разделен на два этапа — сначала формируется логическая последовательность идей, и только затем они облекаются в слова .
📉 Эффективность малых форм: вызов DeepSeek и ответ Meta 2:32
Обсуждение новой архитектуры происходит на фоне недавнего релиза китайской модели DeepSeek V3, которая шокировала индустрию своей эффективностью. Разработчикам DeepSeek удалось добиться выдающихся результатов в задачах на рассуждение (reasoning), затратив в 10 раз меньше вычислительных ресурсов, чем Meta при обучении своих моделей .
По мнению Веса Рота, индустрия сейчас наблюдает «обратное движение маятника»: фокус смещается с гигантских моделей на поиск архитектурных прорывов, позволяющих делать нейросети компактнее и умнее . Meta начала тестирование LCM с крайне малых масштабов:
- Nano-версия: Модель с 1,6 млрд параметров, обученная на 1,3 трлн токенов .
- Small-версия: Модель, масштабированная до 7 млрд параметров .
Несмотря на скромные по современным меркам размеры (для сравнения: флагманская Llama 3 имеет 405 млрд параметров), LCM показала впечатляющие результаты в задачах суммаризации текстов и «развертывания» кратких тезисов (summary expansion) .
🗣️ Аналогия с публичным выступлением 5:47
Чтобы объяснить преимущество концептуального подхода, исследователи Meta приводят аналогию с выступлением ученого на конференции . Опытный спикер не читает по бумажке каждое слово (что звучит роботизировано), а держит перед собой карточку с планом — набором ключевых идей (концептов).
Преимущества такого подхода:
- Гибкость: Спикер может произнести одну и ту же речь на разных языках или использовать разные слова, но структура и суть («поток идей») останутся неизменными .
- Итеративное уточнение: Автор может сначала набросать структуру эссе по разделам, а затем детализировать каждый абзац, не теряя общей логики .
- Стойкость к правкам: В традиционных LLM удаление фрагмента текста может сломать логические связи (например, ссылку на ранее упомянутый объект). LCM, работая с концептами, сохраняет структурную целостность при редактировании .
🚀 Будущее архитектуры: контекст и генерализация 9:57
Одним из ключевых технических преимуществ LCM является решение проблемы «окна контекста». Поскольку модель оперирует концептами-предложениями, а не отдельными словами, последовательности данных становятся короче на порядок (минимум в 10 раз) . Это позволяет упаковывать в память нейросети гораздо больше фактической информации.
Результаты первых тестов Meta:
- Zero-shot generalization: Модель демонстрирует способность выполнять задачи, которым её не обучали напрямую, на уровне или лучше традиционных LLM аналогичного размера .
- Мультиязычность: Обученную на концептах модель можно «подключить» к любому языку, и она покажет высокие результаты без дополнительного дообучения на огромных массивах текстов на этом языке .
Вес Рот подчеркивает, что Meta традиционно придерживается политики открытого исходного кода (open source), предоставляя свои наработки сообществу . Хотя LCM пока не достигли показателей лучших современных LLM, автор считает данное направление наиболее перспективным . Использование концептов вместо токенов может стать тем самым «недостающим звеном», которое позволит ИИ не просто имитировать речь, а подлинно планировать и рассуждать, подобно человеку .