Стенфорд запускает CS336: как собрать языковую модель с нуля в эпоху ИИ-гигантов

Stanford Online 59,4 тыс. 1 ч 18 мин 5 мин 08.04.2025
Главное

Стенфордский университет представил обновленный курс CS336 «Языковые модели с нуля» (Language Modeling from Scratch) сезона весны 2025 года. Профессора Перси Лян (Percy Liang) и Татсу Хашимото (Tatsu Hashimoto) ставят перед студентами амбициозную задачу: пройти путь от написания базового токенизатора до развертывания систем выравнивания (alignment), чтобы вернуть академическому сообществу понимание того, как на самом деле работают современные ИИ-гиганты.

🧠 Философия курса: борьба с «текучими абстракциями» 1:37

Перси Лян утверждает, что современное ИИ-сообщество находится в состоянии кризиса: исследователи все больше отрываются от понимания базовых технологий . Если восемь лет назад разработчики сами писали код моделей, а шесть лет назад — хотя бы скачивали веса BERT для тонкой настройки, то сегодня многие ограничиваются лишь промптингом закрытых проприетарных моделей через API .

По мнению Ляна, такие абстракции являются «текучими» (leaky abstractions) — в отличие от языков программирования или операционных систем, в случае с LLM исследователь не понимает, что происходит за фасадом «строка на входе — строка на выходе» . Для проведения фундаментальных исследований необходимо «вскрыть стек» и заново научиться проектировать данные, системы и архитектуры в единой связке .

В курсе выделяют три типа знаний:

📉 Масштабирование и «горький урок» эффективности 8:41

Обсуждая «Горький урок» (The Bitter Lesson) Ричарда Саттона, Перси Лян подчеркивает: это не значит, что алгоритмы не важны, а имеет значение только масштаб . Напротив, по мнению Ляна, важны именно «алгоритмы в масштабе». На больших объемах неэффективность обходится слишком дорого.

Ключевые факты об эффективности:

Лян отмечает, что для GPT-4, по слухам, потребовалось $100 млн и 1,8 триллиона параметров . Поскольку детали обучения закрыты по соображениям конкуренции и безопасности , сообщество должно опираться на открытые наработки (например, от DeepSeek, Meta или Alibaba), чтобы восстановить лучшие практики индустрии .

🏗 Пять столпов создания языковой модели 26:08

Курс CS336 структурирован вокруг пяти ключевых этапов (pillars), которые студенты реализуют самостоятельно.

1. Основы (Basics) 26:53

На этом этапе создается полный пайплайн. Студенты пишут код токенизатора, архитектуру трансформера и цикл обучения. Перси Лян подчеркивает, что с 2017 года оригинальный трансформер оброс множеством улучшений:

2. Системная оптимизация (Systems) 33:07

Упор делается на Triton (язык для написания кастомных GPU-кернелов от OpenAI) . Студенты изучают:

3. Законы масштабирования (Scaling Laws) 39:59

Студенты учатся предсказывать гиперпараметры и потери на больших масштабах, основываясь на малых экспериментах. Основной ориентир — оптимальность по Чинчилле (Chinchilla optimal). По словам Ляна, эмпирическое правило гласит: на каждый параметр модели должно приходиться примерно 20 токенов данных для эффективного обучения .

4. Данные (Data) 43:53

«Данные не падают с неба», — напоминает Лян . Процесс превращения сырого дампа Common Crawl в качественный датасет включает:

5. Выравнивание (Alignment) 49:37

Базовая модель умеет только предсказывать следующий токен. Для создания полезного ассистента применяется Alignment:

🔤 Глубокое погружение в токенизацию 59:41

Токенизация — это фундамент, преобразующий строки в последовательности целых чисел . Профессор Лян разбирает эволюцию подходов:

  1. Посимвольный (Character-based): огромный словарь (если брать Unicode), неэффективное использование памяти .
  2. Побайтовый (Byte-based): компактный словарь (256 значений), но очень длинные последовательности, что «убивает» производительность трансформера из-за квадратичного внимания .
  3. Пословный (Word-based): проблема с редкими и новыми словами (токен OOV/UNK), бесконечный рост словаря .

Byte-Pair Encoding (BPE) стал золотым стандартом благодаря GPT-2 . Алгоритм, созданный Филиппом Гейджем еще в 1994 году для сжатия данных, был адаптирован для NLP . Его суть в последовательном слиянии наиболее часто встречающихся пар байтов/токенов в один новый токен . Это позволяет адаптивно выделять место в словаре для частых комбинаций символов, сохраняя при этом способность собрать любое редкое слово из базовых байтов .

🏁 Итоги и логистика 18:21

Курс CS336 славится своей экстремальной нагрузкой. По отзывам студентов прошлого года, только первое домашнее задание по объему работы сопоставимо со всеми пятью заданиями курса CS224N вместе взятыми . Студенты пишут код в «пустых файлах» без готовых каркасов, самостоятельно принимая решения по дизайну софта .

Для вычислений используется кластер из GPU H100, предоставленный компанией Together AI . Профессора подчеркивают, что главная цель — научить студентов строить лучшие модели в условиях ограниченного бюджета (compute constrained regime), что сегодня актуально для любого исследователя вне стен Big Tech .

💬 Цитаты

«В отличие от языков программирования или операционных систем, абстракции языковых моделей — «текучие». Вы не понимаете, что происходит внутри.»

Перси Лян 02:30

«Алгоритмы в масштабе — вот что действительно имеет значение.»

Перси Лян 09:06

«Данные не падают с неба. Большая часть интернета — это просто мусор.»

Перси Лян 46:11
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
BPE (Byte-Pair Encoding)
Алгоритм токенизации, который сжимает часто встречающиеся пары символов в один токен.
Chinchilla Optimal
Закон масштабирования, определяющий оптимальное соотношение количества параметров модели и объема данных.
Triton
Язык программирования от OpenAI для написания высокопроизводительных GPU-кернелов.
Alignment
Процесс настройки модели, чтобы её ответы соответствовали человеческим инструкциям и нормам безопасности.
📊 Цифры
🗓 Хронология
  1. 1994 Филипп Гейдж публикует алгоритм Byte-Pair Encoding (BPE).
  2. 2017 Выход статьи «Attention Is All You Need», представившей архитектуру Transformer.
  3. 2020 OpenAI публикует исследование об алгоритмической эффективности ИИ.
  4. 2025 Запуск обновленного курса CS336 в Стенфорде.
⚖️ Другая сторона
Образование Stanford University CS336 Percy Liang Tatsu Hashimoto BPE tokenization