Бен Соршер: «Прореживание данных — ключ к эффективному ИИ»

Eye on AI 1,4 тыс. 34 мин 3 мин 02.03.2023
Главное

Эффективное обучение ИИ: как «прореживание» данных меняет правила игры 0:00

Масштабирование нейросетей за счет увеличения объемов данных и количества параметров — главный тренд последних лет, однако этот путь сталкивается с экологическими и экономическими ограничениями. Исследователь из Стэнфорда Бен Соршер в беседе с Крейгом Смитом в подкасте Eye on AI обсуждает альтернативный подход: «прореживание» данных (data pruning), позволяющее обучать модели эффективнее и быстрее. Главная идея заключается в том, что далеко не все обучающие примеры одинаково полезны: многие из них избыточны, и отказ от них может привести к переходу от медленного степенного закона масштабирования (power law) к более эффективному экспоненциальному.

🧠 От физики нейросетей к пониманию мозга 1:49

Бен Соршер, имеющий бэкграунд в физике и математике, пришел в область Deep Learning, вдохновленный вопросом о том, как простые нейроны способны формировать сложные когнитивные функции.

📉 Проблема «силы масштаба» и эффективность данных 5:09

Современный подход к ИИ опирается на тезис «масштабирование — это всё, что нужно» (scale is all you need). Соршер отмечает, что эмпирические исследования подтверждают: ошибка модели уменьшается в соответствии со степенным законом по мере добавления данных.

✂️ Стратегии прореживания: качество против количества 8:02

В отличие от «прореживания весов» (pruning weights), которое уменьшает размер самой модели, прореживание данных (data pruning) направлено на очистку обучающей выборки от избыточных примеров.

  1. Принцип работы: Модели быстро усваивают основные признаки (грубые паттерны), но тонкие, редкие детали требуют огромного количества данных. Прореживание помогает избавиться от «легких» примеров (например, множества изображений белых лебедей) и сфокусироваться на «информативных» (редких или сложных примерах, как «черный лебедь»).
  2. Алгоритмы: Для определения сложности примеров часто обучают вспомогательные, менее мощные модели, которые ранжируют данные.
  3. Самообучение: Поскольку большие наборы данных часто не размечены, Соршер и его коллеги разработали метод самообучения (self-supervised), который анализирует данные без использования готовых меток, опираясь на сопоставление различных искажений одного и того же объекта.

🔮 Теоретические прогнозы и масштаб 15:07

Теоретические расчеты, основанные на упрощенных линейных моделях (перцептронах), позволяют предсказать оптимальную стратегию прореживания.

🛡️ Безопасность и интерпретируемость 30:32

Помимо эффективности, важным вопросом остается безопасность. Бен Соршер выражает обеспокоенность тем, что современные модели разворачиваются в мире без понимания того, как именно они принимают решения.

💬 Цитаты

«В будущем обучение моделей будет строиться на качестве данных, а не на их количестве.»

Бен Соршер 19:19

«Меня пугает, что модели разворачивают в мире, а мы понятия не имеем, как они работают.»

Бен Соршер 30:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Data Pruning
Процесс удаления избыточных или неинформативных примеров из набора данных для обучения моделей.
Scaling Laws
Эмпирические закономерности, описывающие рост качества модели при увеличении объема вычислений, параметров или данных.
Self-supervised learning
Метод обучения, при котором модель сама создает разметку для данных, анализируя их структуру.
Replica Theory
Метод статистической физики, используемый для анализа поведения нейронных сетей.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Ben Sorscher Data Pruning Large Language Models Neural Scaling Laws