Искусство подготовки данных: как фильтрация и дедупликация определяют успех языковых моделей

Stanford Online 21,2 тыс. 1 ч 19 мин 3 мин 16.06.2025
Главное

Искусство подготовки данных: как фильтрация и дедупликация определяют успех языковых моделей 0:04

Подготовка качественных наборов данных — это не просто «сбор» информации, а сложный технологический процесс, который выходит далеко за рамки простого парсинга веб-страниц. На лекции курса Stanford CS336 ведущий детально разобрал механизмы фильтрации и дедупликации, превращающие «сырой» шум интернета в высокоэффективное «топливо» для обучения нейросетей.

🤖 Алгоритмы фильтрации данных 1:22

Основная задача фильтрации — отобрать из огромного массива «сырых» данных (например, Common Crawl) подмножество, максимально близкое к эталонному качественному набору. Основной принцип заключается в создании скоринговой функции, которая оценивает, насколько каждый документ соответствует целевым параметрам.

N-gram модели и Kneser-Ney 2:44

Хотя сейчас эра нейросетей, классические N-gram модели остаются мощным инструментом благодаря своей скорости.

FastText и линейная классификация 8:34

Разработка Facebook (ныне Meta), ставшая стандартом индустрии для быстрой текстовой классификации.

Importance Sampling (Важностное сэмплирование) 13:32

Метод основан на статистических методах Монте-Карло. Вместо того чтобы просто классифицировать «хорошо/плохо», мы пытаемся уравновесить распределение данных, компенсируя нехватку высококачественных примеров. Этот подход считается более принципиальным для обеспечения разнообразия в обучающей выборке.

🎯 Прикладные кейсы: от математики до токсичности 23:44

Машинное обучение на «всём подряд» часто неэффективно. Иногда важно ограничить модель конкретной предметной областью.

🧹 Дедупликация: как не учить модель на «мусоре» 36:56

Повторяющийся контент — бич веб-данных. Например, в наборе C4 одна и та же фраза с карточки товара Amazon обнаруживалась 61 000 раз. Дедупликация нужна не только для экономии вычислений, но и для предотвращения «зазубривания» (memorization), что важно для приватности и соблюдения авторских прав.

Точная дедупликация и фильтры Блума 46:47

Если нужно найти полные дубликаты, эффективно использовать хеширование (например, MurmurHash). Фильтры Блума позволяют проверять принадлежность элемента к множеству с невероятной эффективностью по памяти.

Приблизительная дедупликация (MinHash LSH) 58:53

Когда документы отличаются лишь парой знаков препинания или слов, используется Jaccard similarity.

В завершение лекции было отмечено: несмотря на наличие алгоритмических инструментов, «чувство данных» приходит только через глубокое погружение, ручной просмотр примеров и постоянные эксперименты с фильтрацией.

💬 Цитаты

«Data doesn't just fall from the sky. It exists often in live services.»

Лектор Stanford Online 00:17

«Deduplication is complementary to quality filtering.»

Лектор Stanford Online 40:31
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
N-gram
Последовательность из N элементов (слов или символов), используемая для анализа текста.
Perplexity
Метрика, показывающая, насколько хорошо модель предсказывает выборку; чем ниже, тем лучше.
Jaccard similarity
Мера сходства двух множеств, вычисляемая как отношение размера их пересечения к размеру их объединения.
Bloom filter
Вероятностная структура данных, позволяющая быстро проверить, принадлежит ли элемент множеству.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект data filtering deduplication KenLM FastText MinHash LSH