# Бен Соршер: «Прореживание данных — ключ к эффективному ИИ»

Источник: https://www.youtube.com/watch?v=KyIq3NhbT5w
Канал: Eye on AI
Опубликовано: 02.03.2023

---

## Эффективное обучение ИИ: как «прореживание» данных меняет правила игры
[[JUMP:0:00]]

Масштабирование нейросетей за счет увеличения объемов данных и количества параметров — главный тренд последних лет, однако этот путь сталкивается с экологическими и экономическими ограничениями. Исследователь из Стэнфорда Бен Соршер в беседе с Крейгом Смитом в подкасте Eye on AI обсуждает альтернативный подход: «прореживание» данных (data pruning), позволяющее обучать модели эффективнее и быстрее. Главная идея заключается в том, что далеко не все обучающие примеры одинаково полезны: многие из них избыточны, и отказ от них может привести к переходу от медленного степенного закона масштабирования (power law) к более эффективному экспоненциальному.

## 🧠 От физики нейросетей к пониманию мозга
[[JUMP:1:49]]

Бен Соршер, имеющий бэкграунд в физике и математике, пришел в область Deep Learning, вдохновленный вопросом о том, как простые нейроны способны формировать сложные когнитивные функции.

*   **Аналогия с физикой:** Соршер рассматривает глубокие нейронные сети как физические системы, состоящие из множества взаимодействующих элементов. По его словам, физики десятилетиями разрабатывали методы анализа таких систем, и эти инструменты теперь помогают изучать нейросети.
*   **ИИ как «разминочная задача»:** Ученый подчеркивает, что его конечная цель — не создание идеального ИИ, а понимание принципов работы человеческого мозга. В отличие от живого мозга, архитектуру и данные моделей ИИ можно контролировать, что делает их удобным «полигоном» для экспериментов, хотя даже здесь внутренняя логика систем остается во многом непрозрачной.

## 📉 Проблема «силы масштаба» и эффективность данных
[[JUMP:5:09]]

Современный подход к ИИ опирается на тезис «масштабирование — это всё, что нужно» (scale is all you need). Соршер отмечает, что эмпирические исследования подтверждают: ошибка модели уменьшается в соответствии со степенным законом по мере добавления данных.

*   **Экономический тупик:** Это «хорошие новости» для качества, но «плохие» для эффективности: чтобы снизить ошибку, например, с 2% до 1%, приходится увеличивать датасет в разы.
*   **Экологический след:** Обучение гигантских моделей требует колоссальных затрат электроэнергии и выбросов CO2, что вызывает всё большую общественную критику.

## ✂️ Стратегии прореживания: качество против количества
[[JUMP:8:02]]

В отличие от «прореживания весов» (pruning weights), которое уменьшает размер самой модели, прореживание данных (data pruning) направлено на очистку обучающей выборки от избыточных примеров.

1.  **Принцип работы:** Модели быстро усваивают основные признаки (грубые паттерны), но тонкие, редкие детали требуют огромного количества данных. Прореживание помогает избавиться от «легких» примеров (например, множества изображений белых лебедей) и сфокусироваться на «информативных» (редких или сложных примерах, как «черный лебедь»).
2.  **Алгоритмы:** Для определения сложности примеров часто обучают вспомогательные, менее мощные модели, которые ранжируют данные.
3.  **Самообучение:** Поскольку большие наборы данных часто не размечены, Соршер и его коллеги разработали метод самообучения (self-supervised), который анализирует данные без использования готовых меток, опираясь на сопоставление различных искажений одного и того же объекта.

## 🔮 Теоретические прогнозы и масштаб
[[JUMP:15:07]]

Теоретические расчеты, основанные на упрощенных линейных моделях (перцептронах), позволяют предсказать оптимальную стратегию прореживания.

*   **Экспоненциальное ускорение:** При использовании оптимальной стратегии обучения, по мнению Соршера, можно побить степенные законы и достичь экспоненциального масштабирования.
*   **Будущее больших моделей:** На текущих стандартных датасетах (как ImageNet) удается отсеять около 50% данных. Однако Соршер полагает, что настоящая эффективность проявится только при работе с «миллиардами примеров и триллионами токенов», где экономия вычислительных мощностей станет критически важной.

## 🛡️ Безопасность и интерпретируемость
[[JUMP:30:32]]

Помимо эффективности, важным вопросом остается безопасность. Бен Соршер выражает обеспокоенность тем, что современные модели разворачиваются в мире без понимания того, как именно они принимают решения.

*   **Предвзятость данных:** Поскольку данные собираются из интернета случайным образом, они неизбежно содержат предрассудки, которые «запекаются» в модель и затем влияют на решения в социальных сетях или рекламных платформах.
*   **Научное сотрудничество:** Соршер продолжает работать с нейробиологами, записывающими активность мозга мышей и приматов, чтобы использовать наработки из области Deep Learning для поиска принципов того, как обучается наш мозг.