Рэндалл Балестриеро о LLM: «Предобучение не всегда стоит затрат»

Machine Learning Street Talk 17,2 тыс. 34 мин 2 мин 23.04.2025
Главное

Новое слово в машинном обучении: стоит ли «переобучать» гигантов? 0:00

Рэндалл Балестриеро, эксперт в области машинного обучения, обсудил с ведущими канала Machine Learning Street Talk переосмысление подходов к созданию больших языковых моделей (LLM) и важность специализированных решений. Главный сюжет дискуссии — эмпирические результаты, которые ставят под сомнение необходимость колоссальных затрат на предобучение моделей на огромных массивах данных для специфических прикладных задач.

🧠 Парадокс предобученных моделей 0:00

В ходе экспериментов выяснилось, что даже «перепараметризованные» модели (например, с 7 миллиардами параметров) могут демонстрировать стабильное обучение на небольших наборах данных (около 20 000 примеров) с помощью типичного обучения с учителем.

⚖️ SSL против обучения с учителем 16:13

Одной из ключевых тем стала статья, написанная совместно с Яном Лекуном, посвященная эквивалентности обучения с учителем и самообучения (Self-Supervised Learning, SSL).

🌍 Геопространственные данные и скрытые предвзятости 25:23

Обсуждение затронуло и проблемы справедливости моделей при анализе данных о Земле (климатические модели, распределение ресурсов).

💬 Цитаты

«Для некоторых приложений это кажется не лучше, чем случайный выбор.»

Рэндалл Балестриеро 0:40

«SSL — это более общая цель для изучения представлений, чем обучение с учителем.»

Рэндалл Балестриеро 24:33
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Implicit Neural Representation (INR)
Способ представления данных (например, температуры или изображений) в виде функции, которая по координатам (локация, время) выдает значение.
LoRA (Low-Rank Adaptation)
Метод эффективной донастройки больших моделей путем добавления небольшого количества обучаемых параметров.
VICReg
Метод самообучения (SSL), который минимизирует дисперсию и ковариацию для предотвращения коллапса представлений.
Neural Collapse
Феномен, при котором признаки разных классов в сети сжимаются до простых геометрических структур в конце обучения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Randall Balestriero Self-Supervised Learning Machine Learning LLM VICReg