Янник Килчер разбирает интригующую работу «Self-classifying MNIST Digits», в которой традиционная задача классификации изображений решается не через глобальный классификатор, а с помощью децентрализованного взаимодействия «умных» пикселей. Авторы исследуют, как локальные правила коммуникации между клетками могут привести к глобальному согласию всей системы о том, какой объект она собой представляет.
🧩 Клеточный разум: как пиксели находят общий язык 0:01
Представьте, что каждый пиксель на изображении — это живая клетка, способная общаться только со своими ближайшими соседями. В этой модели, называемой нейронными клеточными автоматами (NCA), нет центрального процессора, который «видит» всю картинку целиком. Вместо этого клетки обмениваются сообщениями, чтобы прийти к консенсусу: какую именно цифру из набора MNIST они сейчас образуют.
Янник Килчер демонстрирует это на живом примере: когда на холсте рисуется цифра, клетки начинают «пульсировать», передавая сигналы, пока вся область не окрасится в цвет, соответствующий определённому классу (например, серый для семерки или зеленый для тройки). По мнению ведущего, это исследование не ставит целью побить рекорды точности в классификации, а направлено на изучение биологических принципов самоорганизации и регенерации сложных анатомических структур.
🛠 Механика общения: векторы состояния и свертки 5:52
Каждая клетка обладает собственным вектором состояния, который включает:
- 10 слотов для вероятностей классов (от 0 до 9).
- Дополнительные латентные (скрытые) переменные, используемые для передачи служебной информации.
Классификация считается успешной, когда значение в одном из 10 целевых слотов становится максимальным и совпадает у всех активных клеток. Чтобы обновить своё состояние, клетка анализирует соседей. Биологическая логика здесь в том, что все клетки следуют одному и тому же правилу обновления, независимо от их местоположения.
Технически это реализовано через операцию свертки $3 \times 3$, которая применяется рекуррентно. Янник Килчер подчеркивает, что это фактически рекуррентная нейронная сеть (RNN) с остаточными (residual) связями, где один и тот же обученный фильтр свертки используется на каждом шаге итерации.
🧬 Обучение через мутации и борьба за выживание 14:44
Для того чтобы система была устойчивой к изменениям в реальном времени, авторы применили стратегию «мутаций». Процесс выглядит так:
- Клетки инициализируются случайным образом и обучаются распознавать цифру MNIST.
- Через 200 шагов итерации цифра на холсте внезапно меняется с вероятностью 90%.
- Клетки, которые остались «живыми» (находятся на линиях новой цифры), сохраняют часть старого состояния, а новые клетки инициализируются случайно.
Такой подход заставляет нейросеть постоянно находиться в «состоянии готовности» к изменениям. Однако Янник Килчер отмечает проблему: со временем точность и уровень согласия между клетками могут начать снижаться. Исследователи обнаружили, что значения в векторах состояний имеют тенденцию к бесконечному росту, что в итоге дестабилизирует систему.
📉 Математическая ловушка: почему Softmax взрывает веса 19:31
Проблема кроется в стандартном подходе к классификации — использовании функции Softmax и кросс-энтропийной потери.
Формула Softmax выглядит следующим образом: $$\sigma(\mathbf{z})i = \frac{e^{z_i}}{\sum{j=1}^K e^{z_j}}$$
Янник Килчер объясняет: поскольку экспонента никогда не достигает нуля, функция потерь всегда будет подталкивать «правильный» логит вверх, а остальные — вниз, в область отрицательных значений. В обычной сети, где проход совершается один раз, это не критично. Но в клеточном автомате, где итерации повторяются бесконечно, численные значения весов начинают «взрываться», пытаясь минимизировать потерю до недостижимого идеала.
Чтобы купировать этот эффект, авторы предложили два решения:
- Использование L2-потери вместо кросс-энтропии (сравнение векторов по евклидову расстоянию).
- Добавление шума в остаточные обновления, чтобы держать сеть в тонусе и не давать ей зацикливаться на экстремальных значениях.
🎭 Химеры и скрытые смыслы: что видят клетки
[[JUMP:26:20] ]
Одним из самых интересных свойств модели является её реакция на «химерные» или некорректные изображения. Если нарисовать фигуру, не похожую ни на одну цифру, клетки не смогут договориться и будут постоянно менять своё «мнение», создавая эффект мерцания. Это демонстрирует естественную устойчивость системы к данным, выходящим за рамки обучающей выборки (out-of-distribution).
Визуализация латентных состояний показала, что разные каналы «общения» клеток специализируются на определенных геометрических примитивах:
- Одни каналы отвечают за распознавание изгибов (например, верхняя часть «двойки» или «нуля»).
- Другие — за идентификацию углов и окончаний линий.
В завершение Янник Килчер признается, что в восторге от формата публикации в журнале Distill, который позволяет читателю взаимодействовать с демо-версиями прямо в тексте. По его мнению, такие биологически обоснованные модели — это перспективное и крайне эффективное с точки зрения ресурсов направление для современных исследований в области ИИ.