Рэндалл Балестриеро о LLM: «Предобучение не всегда стоит затрат»

Новое слово в машинном обучении: стоит ли «переобучать» гигантов? 0:00

Рэндалл Балестриеро, эксперт в области машинного обучения, обсудил с ведущими канала Machine Learning Street Talk переосмысление подходов к созданию больших языковых моделей (LLM) и важность специализированных решений. Главный сюжет дискуссии — эмпирические результаты, которые ставят под сомнение необходимость колоссальных затрат на предобучение моделей на огромных массивах данных для специфических прикладных задач.

🧠 Парадокс предобученных моделей 0:00

В ходе экспериментов выяснилось, что даже «перепараметризованные» модели (например, с 7 миллиардами параметров) могут демонстрировать стабильное обучение на небольших наборах данных (около 20 000 примеров) с помощью типичного обучения с учителем.

Отсутствие переобучения: Несмотря на огромный разрыв в соотношении параметров и данных, модели не показывают агрессивного переобучения, что идет вразрез с устоявшимися представлениями о глубинных сетях.
Специализация против генерации: Балестриеро утверждает, что для дискриминационных задач (классификация, определение тональности) предобучение на гигантских корпусах текстов методом предсказания следующего токена часто не дает преимуществ перед случайной инициализацией весов.
Экономический аспект: Стоит ли тратить месяцы работы тысяч GPU на создание гигантов, если для конкретного приложения модель, обученная «с нуля» на специализированном наборе, работает не хуже?

⚖️ SSL против обучения с учителем 16:13

Одной из ключевых тем стала статья, написанная совместно с Яном Лекуном, посвященная эквивалентности обучения с учителем и самообучения (Self-Supervised Learning, SSL).

Фундаментальное единство: По мнению гостя, SSL и классическое обучение с учителем используют одну и ту же математическую структуру, различаясь лишь способом интерпретации связей между данными.
Проблема данных: Разница в эффективности моделей обусловлена не функцией потерь, а разметкой датасета. В режиме SSL каждое изображение фактически становится собственным классом, что позволяет избежать коллапса признаков.
Neural Collapse: Балестриеро отмечает, что эффект «нейронного коллапса», ранее доказанный для обучения с учителем, теперь применим и к SSL-сеттингам, что объединяет эти две области исследований.

🌍 Геопространственные данные и скрытые предвзятости 25:23

Обсуждение затронуло и проблемы справедливости моделей при анализе данных о Земле (климатические модели, распределение ресурсов).

Архитектурные ошибки: Балестриеро подчеркивает, что модели часто показывают хорошие результаты «в среднем», но демонстрируют почти случайную точность в прибрежных зонах или на островах.
Выбор базиса: Использование преобразования Фурье в нейронных представлениях накладывает сильное ограничение на локализацию данных. Исследователь предлагает использовать вейвлеты для более точного кодирования локальных градиентов данных.
Риски краудсорсинга: Поскольку большая часть данных собирается в развитых странах (например, ImageNet), модели наследуют предвзятость, становясь неэффективными при анализе объектов в других регионах мира.