# Рэндалл Балестриеро о LLM: «Предобучение не всегда стоит затрат»

Источник: https://www.youtube.com/watch?v=SP-kORMUZns
Канал: Machine Learning Street Talk
Опубликовано: 23.04.2025

---

## Новое слово в машинном обучении: стоит ли «переобучать» гигантов?
[[JUMP:0:00]]

Рэндалл Балестриеро, эксперт в области машинного обучения, обсудил с ведущими канала Machine Learning Street Talk переосмысление подходов к созданию больших языковых моделей (LLM) и важность специализированных решений. Главный сюжет дискуссии — эмпирические результаты, которые ставят под сомнение необходимость колоссальных затрат на предобучение моделей на огромных массивах данных для специфических прикладных задач.

### 🧠 Парадокс предобученных моделей
[[JUMP:0:00]]

В ходе экспериментов выяснилось, что даже «перепараметризованные» модели (например, с 7 миллиардами параметров) могут демонстрировать стабильное обучение на небольших наборах данных (около 20 000 примеров) с помощью типичного обучения с учителем.

*   **Отсутствие переобучения:** Несмотря на огромный разрыв в соотношении параметров и данных, модели не показывают агрессивного переобучения, что идет вразрез с устоявшимися представлениями о глубинных сетях.
*   **Специализация против генерации:** Балестриеро утверждает, что для дискриминационных задач (классификация, определение тональности) предобучение на гигантских корпусах текстов методом предсказания следующего токена часто не дает преимуществ перед случайной инициализацией весов.
*   **Экономический аспект:** Стоит ли тратить месяцы работы тысяч GPU на создание гигантов, если для конкретного приложения модель, обученная «с нуля» на специализированном наборе, работает не хуже?

### ⚖️ SSL против обучения с учителем
[[JUMP:16:13]]

Одной из ключевых тем стала статья, написанная совместно с Яном Лекуном, посвященная эквивалентности обучения с учителем и самообучения (Self-Supervised Learning, SSL).

*   **Фундаментальное единство:** По мнению гостя, SSL и классическое обучение с учителем используют одну и ту же математическую структуру, различаясь лишь способом интерпретации связей между данными.
*   **Проблема данных:** Разница в эффективности моделей обусловлена не функцией потерь, а разметкой датасета. В режиме SSL каждое изображение фактически становится собственным классом, что позволяет избежать коллапса признаков.
*   **Neural Collapse:** Балестриеро отмечает, что эффект «нейронного коллапса», ранее доказанный для обучения с учителем, теперь применим и к SSL-сеттингам, что объединяет эти две области исследований.

### 🌍 Геопространственные данные и скрытые предвзятости
[[JUMP:25:23]]

Обсуждение затронуло и проблемы справедливости моделей при анализе данных о Земле (климатические модели, распределение ресурсов).

*   **Архитектурные ошибки:** Балестриеро подчеркивает, что модели часто показывают хорошие результаты «в среднем», но демонстрируют почти случайную точность в прибрежных зонах или на островах.
*   **Выбор базиса:** Использование преобразования Фурье в нейронных представлениях накладывает сильное ограничение на локализацию данных. Исследователь предлагает использовать вейвлеты для более точного кодирования локальных градиентов данных.
*   **Риски краудсорсинга:** Поскольку большая часть данных собирается в развитых странах (например, ImageNet), модели наследуют предвзятость, становясь неэффективными при анализе объектов в других регионах мира.