«Данные не падают с неба»: Как на самом деле учат AI

Stanford Online 22,9 тыс. 1 ч 19 мин 3 мин 10.06.2025
Главное

🧠 Искусство выбора: Почему данные важнее архитектуры в обучении языковых моделей 0:04

В мире разработки больших языковых моделей (LLM) долгое время доминировало внимание к архитектурным новшествам, оптимизаторам и законам масштабирования. Однако, по мнению преподавателя Стэнфордского университета, именно данные остаются самым критически важным компонентом для создания качественной модели. В то время как архитектурные решения часто принимаются небольшой группой разработчиков и являются фиксированными, работа с данными — это масштабная и параллелизуемая задача, требующая усилий сотен специалистов по всему миру.

🛠 Жизненный цикл обучающих данных 2:49

Процесс обучения модели не является единовременным действием; он разбит на несколько ключевых этапов, границы между которыми в современных реалиях становятся всё более размытыми:

🌐 Охота за качеством: От Common Crawl до специализированных сетов 13:31

Распространенное утверждение, что языковые модели «обучаются на всем интернете», является неточным. В реальности разработчики используют специфические срезы данных. Основным источником выступает Common Crawl — академический проект, существующий с 2007 года, который ежемесячно сканирует миллиарды веб-страниц.

Однако просто «скачать интернет» недостаточно. Исследователи применяют сложные стратегии фильтрации:

  1. Rule-based методы: Использование жестких правил (например, удаление страниц с плохой грамматикой, малым количеством текста или «плохими» словами), как это было реализовано в проекте C4.
  2. Model-based методы: Использование классификаторов, которые ищут данные, похожие на «золотые стандарты» — например, Wikipedia или высококачественные образовательные ресурсы.
  3. Гибридные подходы: Например, в проекте Nemotron-CC данные не только фильтруются с помощью моделей, но и перефразируются для повышения качества.

Интересно, что ранее исследователи избегали ML-фильтрации из опасений внести предвзятость, но современные тенденции показывают, что использование моделей в контуре обработки позволяет достичь значительно лучших результатов на бенчмарках.

⚖️ Правовой лабиринт и авторское право

Вопрос использования данных неизбежно упирается в юридические ограничения. Большинство материалов в интернете защищено авторским правом, которое по умолчанию применяется к любому «оригинальному произведению, зафиксированному на материальном носителе».

Тем не менее, даже при наличии Fair Use, разработчики сталкиваются с Terms of Service платформ, которые прямо запрещают автоматизированное скачивание данных (scraping).

🤖 Будущее: Синтетика и специализация

Современный тренд — переход к использованию синтетических данных. Поскольку доступ к высококачественным человеческим данным ограничен, разработчики всё чаще просят мощные модели (такие как GPT-4) генерировать обучающие примеры, вопросы и ответы.

С развитием открытых весовых моделей (open-weight models) стало возможным использовать их для дистилляции знаний, создавая конкурентные наборы данных без нарушения условий лицензий проприетарных систем. Несмотря на то, что вся область сейчас напоминает «месиво из эвристик», именно здесь кроются основные возможности для прорывов в качестве моделей ближайших лет.

💬 Цитаты

«Мой «горячий» взгляд заключается в том, что данные — это самое важное для правильной работы языковых моделей.»

«Если кто-то говорит вам, что языковые модели обучены на интернете, вы можете сказать им, что это просто ложь.»

«Данные не падают с неба. Вам приходится очень много работать, чтобы их получить.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Fair Use
Американская юридическая доктрина, позволяющая использовать защищенные авторским правом материалы без разрешения при соблюдении определенных условий.
Distillation
Процесс обучения компактной модели на выходах более крупной и мощной языковой модели.
Token
Единица текста, на которой обучается модель (слово, часть слова или символ).
Deduplication
Процесс удаления дубликатов из набора данных, критически важный для предотвращения переобучения модели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Common Crawl LLM training Dataset curation Fair Use