Сара Бери об ИИ: «Я не хочу, чтобы Google тратил энергию на каждый запрос»

Искусство переноса знаний: как модели обучаются на чужом опыте 🧠 0:00

Transfer learning (обучение с переносом) — это парадигма машинного обучения, позволяющая создавать эффективные модели, даже когда объем доступных данных крайне мал. Сара Бери, лектор MIT, подчеркивает: вместо того чтобы начинать обучение с «чистого листа», нейросети могут использовать опыт, полученный при решении других задач. Этот подход имитирует способность человека адаптироваться к новому опыту, опираясь на физическое понимание мира и накопленные знания.

🏗 Модульный подход: fine-tuning и адаптация 12:16

Основой transfer learning является перенос знаний о том, как входные данные (input) преобразуются в полезные результаты (output).

Fine-tuning (тонкая настройка): Модель, предварительно обученная на масштабном наборе данных (pretraining), инициализирует веса (weights) и смещения (biases) для новой задачи. Часто финальные слои, специфичные для исходной задачи, заменяются новыми, в то время как «базовые» слои остаются неизменными.
Гибкость архитектуры: Если размерности данных меняются (например, переход от RGB к Grayscale), вводятся промежуточные «склеивающие» слои (glue layers) или используются методы проекции (например, PCA для гиперспектральных данных), чтобы адаптировать структуру модели без полной потери знаний.
Проблема катастрофического забывания: При дообучении на малых данных существует риск, что модель утратит ранее усвоенные универсальные представления. Для борьбы с этим применяются:
- Заморозка (freezing) большинства слоев сети.
- Использование малых скоростей обучения (small learning rates).
- Early stopping (ранняя остановка) на основе валидационной выборки.
- Совместное обучение на старых и новых данных.

🌍 Адаптация к домену (Domain Adaptation) 30:02

Domain adaptation решает проблему сдвига распределения данных (distribution shift), когда источник данных и целевое окружение имеют разные характеристики — например, качественные фото товаров с Amazon против «грязных» снимков с рабочего стола на eBay.

Состязательный подход (Adversarial approach): Модель обучается предсказывать категорию объекта, при этом «стараясь» не угадать, из какого домена пришел входной сигнал. Это заставляет внутренние представления (feature spaces) различных доменов выравниваться.
Слабое обучение (Weak supervision): В задачах, где для целевого домена нет разметки (например, распознавание рыб в удаленных реках Арктики), используются прогнозы «учителя» (модели, обученной на другом домене) для обучения модели-ученика (student model).

🎓 Дистилляция знаний (Knowledge Distillation) 41:10

Дистилляция знаний — это передача опыта от крупной, «учительской» модели к более компактной «студенческой».

Зачем это нужно: Ученик становится меньше, быстрее и эффективнее, сохраняя при этом точность учителя.
Роль вероятностей: Модель-ученик учится не просто «жестким» правилам (cat/dog), а вероятностному распределению (soft targets). Например, понимание того, что на фото «собака, похожая на кошку», дает модели ценный контекст о сходстве категорий, который отсутствует при использовании «жестких» меток.
Ансамбли: Можно дистиллировать знания целого ансамбля моделей в одну, экономя вычислительные ресурсы при эксплуатации.

🤖 Эра Foundation Models: прогресс или экологический кризис? 56:16

Foundation models (фундаментальные модели) — это системы, настолько универсальные, что могут решать множество задач без специфического дообучения (off-the-shelf). Однако этот прогресс имеет скрытую цену.

Ресурсный голод: По словам Сары Бери, обучение таких моделей требует колоссальных объемов энергии, воды (для охлаждения дата-центров) и финансовых вложений.
Углеродный след: Экологическая стоимость зависит от того, насколько устойчивыми являются источники энергии в дата-центрах.
Прозрачность: Лектор выражает обеспокоенность отсутствием данных об истинной вычислительной стоимости запросов. Она призывает к созданию «климатически дружелюбных» режимов поиска, которые использовали бы менее энергозатратные модели там, где это уместно.

💡 Промпт-инжиниринг: «Джинн из лампы»

Современный парадигма адаптации — промпт-инжиниринг, где взаимодействие с моделью сводится к «вопрошанию».

Хрупкость: Модели крайне чувствительны к формулировкам, что делает процесс подбора промптов похожим на загадывание желаний у джинна — важно быть предельно точным, чтобы не получить неожиданный результат.
Chain-of-Thought: Принуждение модели рассуждать логически (step-by-step) значительно повышает точность ответов в математических и аналитических задачах.
Визуальные промпты: Существуют способы адаптации моделей через «beneficial noise» — добавление специфического шума к входному изображению (или даже одного пикселя), что может повысить точность предсказания на целые проценты.