# Сара Бери об ИИ: «Я не хочу, чтобы Google тратил энергию на каждый запрос»

Источник: https://www.youtube.com/watch?v=tNfuZ9Imt3M
Канал: MIT OpenCourseWare
Опубликовано: 11.02.2026

---

## Искусство переноса знаний: как модели обучаются на чужом опыте 🧠
[[JUMP:0:00]]

Transfer learning (обучение с переносом) — это парадигма машинного обучения, позволяющая создавать эффективные модели, даже когда объем доступных данных крайне мал. Сара Бери, лектор MIT, подчеркивает: вместо того чтобы начинать обучение с «чистого листа», нейросети могут использовать опыт, полученный при решении других задач. Этот подход имитирует способность человека адаптироваться к новому опыту, опираясь на физическое понимание мира и накопленные знания.

### 🏗 Модульный подход: fine-tuning и адаптация
[[JUMP:12:16]]

Основой transfer learning является перенос знаний о том, как входные данные (input) преобразуются в полезные результаты (output). 

*   **Fine-tuning (тонкая настройка):** Модель, предварительно обученная на масштабном наборе данных (pretraining), инициализирует веса (weights) и смещения (biases) для новой задачи. Часто финальные слои, специфичные для исходной задачи, заменяются новыми, в то время как «базовые» слои остаются неизменными.
*   **Гибкость архитектуры:** Если размерности данных меняются (например, переход от RGB к Grayscale), вводятся промежуточные «склеивающие» слои (glue layers) или используются методы проекции (например, PCA для гиперспектральных данных), чтобы адаптировать структуру модели без полной потери знаний.
*   **Проблема катастрофического забывания:** При дообучении на малых данных существует риск, что модель утратит ранее усвоенные универсальные представления. Для борьбы с этим применяются:
    *   Заморозка (freezing) большинства слоев сети.
    *   Использование малых скоростей обучения (small learning rates).
    *   Early stopping (ранняя остановка) на основе валидационной выборки.
    *   Совместное обучение на старых и новых данных.

### 🌍 Адаптация к домену (Domain Adaptation)
[[JUMP:30:02]]

Domain adaptation решает проблему сдвига распределения данных (distribution shift), когда источник данных и целевое окружение имеют разные характеристики — например, качественные фото товаров с Amazon против «грязных» снимков с рабочего стола на eBay.

*   **Состязательный подход (Adversarial approach):** Модель обучается предсказывать категорию объекта, при этом «стараясь» не угадать, из какого домена пришел входной сигнал. Это заставляет внутренние представления (feature spaces) различных доменов выравниваться.
*   **Слабое обучение (Weak supervision):** В задачах, где для целевого домена нет разметки (например, распознавание рыб в удаленных реках Арктики), используются прогнозы «учителя» (модели, обученной на другом домене) для обучения модели-ученика (student model).

### 🎓 Дистилляция знаний (Knowledge Distillation)
[[JUMP:41:10]]

Дистилляция знаний — это передача опыта от крупной, «учительской» модели к более компактной «студенческой». 

*   **Зачем это нужно:** Ученик становится меньше, быстрее и эффективнее, сохраняя при этом точность учителя.
*   **Роль вероятностей:** Модель-ученик учится не просто «жестким» правилам (cat/dog), а вероятностному распределению (soft targets). Например, понимание того, что на фото «собака, похожая на кошку», дает модели ценный контекст о сходстве категорий, который отсутствует при использовании «жестких» меток.
*   **Ансамбли:** Можно дистиллировать знания целого ансамбля моделей в одну, экономя вычислительные ресурсы при эксплуатации.

### 🤖 Эра Foundation Models: прогресс или экологический кризис?
[[JUMP:56:16]]

Foundation models (фундаментальные модели) — это системы, настолько универсальные, что могут решать множество задач без специфического дообучения (off-the-shelf). Однако этот прогресс имеет скрытую цену.

*   **Ресурсный голод:** По словам Сары Бери, обучение таких моделей требует колоссальных объемов энергии, воды (для охлаждения дата-центров) и финансовых вложений.
*   **Углеродный след:** Экологическая стоимость зависит от того, насколько устойчивыми являются источники энергии в дата-центрах.
*   **Прозрачность:** Лектор выражает обеспокоенность отсутствием данных об истинной вычислительной стоимости запросов. Она призывает к созданию «климатически дружелюбных» режимов поиска, которые использовали бы менее энергозатратные модели там, где это уместно.

### 💡 Промпт-инжиниринг: «Джинн из лампы»
[[JUMP:109:43]]

Современный парадигма адаптации — промпт-инжиниринг, где взаимодействие с моделью сводится к «вопрошанию». 

*   **Хрупкость:** Модели крайне чувствительны к формулировкам, что делает процесс подбора промптов похожим на загадывание желаний у джинна — важно быть предельно точным, чтобы не получить неожиданный результат.
*   **Chain-of-Thought:** Принуждение модели рассуждать логически (step-by-step) значительно повышает точность ответов в математических и аналитических задачах.
*   **Визуальные промпты:** Существуют способы адаптации моделей через «beneficial noise» — добавление специфического шума к входному изображению (или даже одного пикселя), что может повысить точность предсказания на целые проценты.