Бен Соршер: «Прореживание данных — ключ к эффективному ИИ»

Эффективное обучение ИИ: как «прореживание» данных меняет правила игры 0:00

Масштабирование нейросетей за счет увеличения объемов данных и количества параметров — главный тренд последних лет, однако этот путь сталкивается с экологическими и экономическими ограничениями. Исследователь из Стэнфорда Бен Соршер в беседе с Крейгом Смитом в подкасте Eye on AI обсуждает альтернативный подход: «прореживание» данных (data pruning), позволяющее обучать модели эффективнее и быстрее. Главная идея заключается в том, что далеко не все обучающие примеры одинаково полезны: многие из них избыточны, и отказ от них может привести к переходу от медленного степенного закона масштабирования (power law) к более эффективному экспоненциальному.

🧠 От физики нейросетей к пониманию мозга 1:49

Бен Соршер, имеющий бэкграунд в физике и математике, пришел в область Deep Learning, вдохновленный вопросом о том, как простые нейроны способны формировать сложные когнитивные функции.

Аналогия с физикой: Соршер рассматривает глубокие нейронные сети как физические системы, состоящие из множества взаимодействующих элементов. По его словам, физики десятилетиями разрабатывали методы анализа таких систем, и эти инструменты теперь помогают изучать нейросети.
ИИ как «разминочная задача»: Ученый подчеркивает, что его конечная цель — не создание идеального ИИ, а понимание принципов работы человеческого мозга. В отличие от живого мозга, архитектуру и данные моделей ИИ можно контролировать, что делает их удобным «полигоном» для экспериментов, хотя даже здесь внутренняя логика систем остается во многом непрозрачной.

📉 Проблема «силы масштаба» и эффективность данных 5:09

Современный подход к ИИ опирается на тезис «масштабирование — это всё, что нужно» (scale is all you need). Соршер отмечает, что эмпирические исследования подтверждают: ошибка модели уменьшается в соответствии со степенным законом по мере добавления данных.

Экономический тупик: Это «хорошие новости» для качества, но «плохие» для эффективности: чтобы снизить ошибку, например, с 2% до 1%, приходится увеличивать датасет в разы.
Экологический след: Обучение гигантских моделей требует колоссальных затрат электроэнергии и выбросов CO2, что вызывает всё большую общественную критику.

✂️ Стратегии прореживания: качество против количества 8:02

В отличие от «прореживания весов» (pruning weights), которое уменьшает размер самой модели, прореживание данных (data pruning) направлено на очистку обучающей выборки от избыточных примеров.

Принцип работы: Модели быстро усваивают основные признаки (грубые паттерны), но тонкие, редкие детали требуют огромного количества данных. Прореживание помогает избавиться от «легких» примеров (например, множества изображений белых лебедей) и сфокусироваться на «информативных» (редких или сложных примерах, как «черный лебедь»).
Алгоритмы: Для определения сложности примеров часто обучают вспомогательные, менее мощные модели, которые ранжируют данные.
Самообучение: Поскольку большие наборы данных часто не размечены, Соршер и его коллеги разработали метод самообучения (self-supervised), который анализирует данные без использования готовых меток, опираясь на сопоставление различных искажений одного и того же объекта.

🔮 Теоретические прогнозы и масштаб 15:07

Теоретические расчеты, основанные на упрощенных линейных моделях (перцептронах), позволяют предсказать оптимальную стратегию прореживания.

Экспоненциальное ускорение: При использовании оптимальной стратегии обучения, по мнению Соршера, можно побить степенные законы и достичь экспоненциального масштабирования.
Будущее больших моделей: На текущих стандартных датасетах (как ImageNet) удается отсеять около 50% данных. Однако Соршер полагает, что настоящая эффективность проявится только при работе с «миллиардами примеров и триллионами токенов», где экономия вычислительных мощностей станет критически важной.

🛡️ Безопасность и интерпретируемость 30:32

Помимо эффективности, важным вопросом остается безопасность. Бен Соршер выражает обеспокоенность тем, что современные модели разворачиваются в мире без понимания того, как именно они принимают решения.

Предвзятость данных: Поскольку данные собираются из интернета случайным образом, они неизбежно содержат предрассудки, которые «запекаются» в модель и затем влияют на решения в социальных сетях или рекламных платформах.
Научное сотрудничество: Соршер продолжает работать с нейробиологами, записывающими активность мозга мышей и приматов, чтобы использовать наработки из области Deep Learning для поиска принципов того, как обучается наш мозг.