Натан Ламберт о Mamba: «Это начало эпохи бесконечного контекста»

Новая эра Mamba: от медицинских изображений до синтеза биологии 🧬 2:42

Индустрия ИИ переживает стремительную эволюцию: всего за 90 дней с момента выхода оригинальной статьи о Mamba, архитектура, основанная на селективных моделях пространства состояний (SSM), вышла далеко за пределы обработки текстов. В подкасте «The Cognitive Revolution» ведущий Натан Ламберт и исследователь Джейсон Мо проанализировали десятки новых работ, которые демонстрируют применение Mamba в компьютерном зрении, анализе графов и биологии. Участники дискуссии сходятся во мнении: способность этих моделей обрабатывать сверхдлинные контексты при линейных затратах вычислительных мощностей делает их серьезным вызовом для доминирующих сегодня трансформеров.

👁️ Революция в анализе изображений: от диагностики к «Виртуальному окрашиванию» 2:42

Хотя оригинальная модель Mamba не была предназначена для визуальных задач, большинство текущих исследований сфокусировано именно на обработке изображений. Исследователи адаптируют архитектуру под специфику пиксельных данных, превращая их в последовательности.

Медицинская сегментация: Одно из самых перспективных направлений. Модели, такие как Mamba-UNet, сочетают сверточные нейронные сети (CNN) для локального анализа и блоки SSM для отслеживания долгосрочных зависимостей. По мнению гостей подкаста, это критически важно для мониторинга прогрессирования опухолей, где врач вынужден анализировать сотни снимков КТ или МРТ.
Архитектурные инновации: Для улучшения понимания пространственных связей авторы работ внедряют «многоканальные сканирования» (Multi-way scan). Вместо линейного прохода по изображению, модели выполняют параллельные проходы с четырех сторон (V-Mamba) или последовательные проходы (Mamba-ND), что позволяет лучше улавливать контекст, выходящий за рамки локальных патчей.
Эффективность: Vision Mamba демонстрирует значительный выигрыш в ресурсах: при обработке изображений высокого разрешения (1248x1248) модель требует 11 ГБ видеопамяти против более чем 80 ГБ у сопоставимых трансформеров.

🧬 «ДНК — это всё, что вам нужно»: прорыв в биологии 58:32

Одним из ключевых событий стал запуск модели Evo от Arc Institute. Эта нейросеть обучена на последовательностях ДНК длиной до 131 000 токенов.

Джейсон Мо утверждает, что модель начинает демонстрировать признаки «понимания» биологических процессов, которые выходят за рамки простого прогнозирования следующего нуклеотида. Поскольку взаимодействие компонентов клетки часто не зависит от их физической близости в геноме, способность Mamba работать с длинными зависимостями позволяет ей моделировать биологические системы на новом уровне глубины.

Эксперты отмечают, что это может стать «режимом смены правил игры» (game changer) в поиске новых лекарств. Вместо «слепого поиска» в лаборатории (метод проб и ошибок), ИИ-модели позволяют сузить пространство поиска на порядки, повышая вероятность успеха экспериментов.

🧠 Проблема «памяти» и вопрос биологического износа 44:09

Обсуждая долгосрочные перспективы, участники затронули вопрос деградации (rot) ИИ-систем при попытках бесконечного расширения контекста.

Проблема переполнения: При обучении на 16 000 токенах модели хорошо справляются с поиском информации в этом окне, но при превышении лимита качество ответов падает.
Гипотеза о «State Decay»: По мнению Натана Ламберта, для создания систем, способных работать «вечно», необходимо внедрение механизмов, аналогичных биологической памяти — селективное забывание или регулярная «очистка» состояния от накопленного «мусора» (Gunk), который перегружает модель.

В финале дискуссии эксперты признали: несмотря на успех Mamba, трансформеры остаются крайне конкурентоспособными благодаря постоянным оптимизациям, таким как «кольцевое внимание» (ring attention) и сжатие контекста через «memory tokens». Будущее, вероятно, будет принадлежать гибридным системам, где преимущества линейного масштабирования SSM встретятся с мощью механизмов внимания трансформеров.