«Данные не падают с неба»: Как на самом деле учат AI

🧠 Искусство выбора: Почему данные важнее архитектуры в обучении языковых моделей 0:04

В мире разработки больших языковых моделей (LLM) долгое время доминировало внимание к архитектурным новшествам, оптимизаторам и законам масштабирования. Однако, по мнению преподавателя Стэнфордского университета, именно данные остаются самым критически важным компонентом для создания качественной модели. В то время как архитектурные решения часто принимаются небольшой группой разработчиков и являются фиксированными, работа с данными — это масштабная и параллелизуемая задача, требующая усилий сотен специалистов по всему миру.

🛠 Жизненный цикл обучающих данных 2:49

Процесс обучения модели не является единовременным действием; он разбит на несколько ключевых этапов, границы между которыми в современных реалиях становятся всё более размытыми:

Предварительное обучение (Pre-training): Работа с огромными объемами «сырых» данных из интернета для формирования фундаментальных знаний.
Промежуточное обучение (Mid-training): Курирование небольших, высококачественных наборов данных, нацеленных на развитие специфических способностей, таких как программирование, математика или длинный контекст.
Пост-обучение (Post-training): Тонкая настройка на инструкциях или диалоговых данных, а также внедрение методов обучения с подкреплением (RLHF) для обеспечения безопасности и удобства взаимодействия.

🌐 Охота за качеством: От Common Crawl до специализированных сетов 13:31

Распространенное утверждение, что языковые модели «обучаются на всем интернете», является неточным. В реальности разработчики используют специфические срезы данных. Основным источником выступает Common Crawl — академический проект, существующий с 2007 года, который ежемесячно сканирует миллиарды веб-страниц.

Однако просто «скачать интернет» недостаточно. Исследователи применяют сложные стратегии фильтрации:

Rule-based методы: Использование жестких правил (например, удаление страниц с плохой грамматикой, малым количеством текста или «плохими» словами), как это было реализовано в проекте C4.
Model-based методы: Использование классификаторов, которые ищут данные, похожие на «золотые стандарты» — например, Wikipedia или высококачественные образовательные ресурсы.
Гибридные подходы: Например, в проекте Nemotron-CC данные не только фильтруются с помощью моделей, но и перефразируются для повышения качества.

Интересно, что ранее исследователи избегали ML-фильтрации из опасений внести предвзятость, но современные тенденции показывают, что использование моделей в контуре обработки позволяет достичь значительно лучших результатов на бенчмарках.

⚖️ Правовой лабиринт и авторское право

Вопрос использования данных неизбежно упирается в юридические ограничения. Большинство материалов в интернете защищено авторским правом, которое по умолчанию применяется к любому «оригинальному произведению, зафиксированному на материальном носителе».

Лицензирование: Компании вроде Google или OpenAI заключают прямые сделки с владельцами контента (например, Reddit или Shutterstock), чтобы легально использовать данные.
Fair Use (Добросовестное использование): Это единственный путь для многих разработчиков, не имеющих бюджетов на покупку данных. Основными аргументами в пользу трансформативного использования данных являются образовательные цели, преобразование работы в качественно новую форму и отсутствие прямой конкуренции с создателем оригинального контента.

Тем не менее, даже при наличии Fair Use, разработчики сталкиваются с Terms of Service платформ, которые прямо запрещают автоматизированное скачивание данных (scraping).

🤖 Будущее: Синтетика и специализация

Современный тренд — переход к использованию синтетических данных. Поскольку доступ к высококачественным человеческим данным ограничен, разработчики всё чаще просят мощные модели (такие как GPT-4) генерировать обучающие примеры, вопросы и ответы.

С развитием открытых весовых моделей (open-weight models) стало возможным использовать их для дистилляции знаний, создавая конкурентные наборы данных без нарушения условий лицензий проприетарных систем. Несмотря на то, что вся область сейчас напоминает «месиво из эвристик», именно здесь кроются основные возможности для прорывов в качестве моделей ближайших лет.