Эффективное обучение ИИ: как «прореживание» данных меняет правила игры 0:00
Масштабирование нейросетей за счет увеличения объемов данных и количества параметров — главный тренд последних лет, однако этот путь сталкивается с экологическими и экономическими ограничениями. Исследователь из Стэнфорда Бен Соршер в беседе с Крейгом Смитом в подкасте Eye on AI обсуждает альтернативный подход: «прореживание» данных (data pruning), позволяющее обучать модели эффективнее и быстрее. Главная идея заключается в том, что далеко не все обучающие примеры одинаково полезны: многие из них избыточны, и отказ от них может привести к переходу от медленного степенного закона масштабирования (power law) к более эффективному экспоненциальному.
🧠 От физики нейросетей к пониманию мозга 1:49
Бен Соршер, имеющий бэкграунд в физике и математике, пришел в область Deep Learning, вдохновленный вопросом о том, как простые нейроны способны формировать сложные когнитивные функции.
- Аналогия с физикой: Соршер рассматривает глубокие нейронные сети как физические системы, состоящие из множества взаимодействующих элементов. По его словам, физики десятилетиями разрабатывали методы анализа таких систем, и эти инструменты теперь помогают изучать нейросети.
- ИИ как «разминочная задача»: Ученый подчеркивает, что его конечная цель — не создание идеального ИИ, а понимание принципов работы человеческого мозга. В отличие от живого мозга, архитектуру и данные моделей ИИ можно контролировать, что делает их удобным «полигоном» для экспериментов, хотя даже здесь внутренняя логика систем остается во многом непрозрачной.
📉 Проблема «силы масштаба» и эффективность данных 5:09
Современный подход к ИИ опирается на тезис «масштабирование — это всё, что нужно» (scale is all you need). Соршер отмечает, что эмпирические исследования подтверждают: ошибка модели уменьшается в соответствии со степенным законом по мере добавления данных.
- Экономический тупик: Это «хорошие новости» для качества, но «плохие» для эффективности: чтобы снизить ошибку, например, с 2% до 1%, приходится увеличивать датасет в разы.
- Экологический след: Обучение гигантских моделей требует колоссальных затрат электроэнергии и выбросов CO2, что вызывает всё большую общественную критику.
✂️ Стратегии прореживания: качество против количества 8:02
В отличие от «прореживания весов» (pruning weights), которое уменьшает размер самой модели, прореживание данных (data pruning) направлено на очистку обучающей выборки от избыточных примеров.
- Принцип работы: Модели быстро усваивают основные признаки (грубые паттерны), но тонкие, редкие детали требуют огромного количества данных. Прореживание помогает избавиться от «легких» примеров (например, множества изображений белых лебедей) и сфокусироваться на «информативных» (редких или сложных примерах, как «черный лебедь»).
- Алгоритмы: Для определения сложности примеров часто обучают вспомогательные, менее мощные модели, которые ранжируют данные.
- Самообучение: Поскольку большие наборы данных часто не размечены, Соршер и его коллеги разработали метод самообучения (self-supervised), который анализирует данные без использования готовых меток, опираясь на сопоставление различных искажений одного и того же объекта.
🔮 Теоретические прогнозы и масштаб 15:07
Теоретические расчеты, основанные на упрощенных линейных моделях (перцептронах), позволяют предсказать оптимальную стратегию прореживания.
- Экспоненциальное ускорение: При использовании оптимальной стратегии обучения, по мнению Соршера, можно побить степенные законы и достичь экспоненциального масштабирования.
- Будущее больших моделей: На текущих стандартных датасетах (как ImageNet) удается отсеять около 50% данных. Однако Соршер полагает, что настоящая эффективность проявится только при работе с «миллиардами примеров и триллионами токенов», где экономия вычислительных мощностей станет критически важной.
🛡️ Безопасность и интерпретируемость 30:32
Помимо эффективности, важным вопросом остается безопасность. Бен Соршер выражает обеспокоенность тем, что современные модели разворачиваются в мире без понимания того, как именно они принимают решения.
- Предвзятость данных: Поскольку данные собираются из интернета случайным образом, они неизбежно содержат предрассудки, которые «запекаются» в модель и затем влияют на решения в социальных сетях или рекламных платформах.
- Научное сотрудничество: Соршер продолжает работать с нейробиологами, записывающими активность мозга мышей и приматов, чтобы использовать наработки из области Deep Learning для поиска принципов того, как обучается наш мозг.