Нейтан Лабенц об основах обучения нейросетей и феномене гроккинга

The Cognitive Revolution 4,7 тыс. 1 ч 33 мин 6 мин 06.07.2023
Главное

В июне 2023 года сооснователь и ведущий подкаста The Cognitive Revolution Нейтан Лабенц представил детальный аналитический обзор под названием «AI Scouting Report». Цель этого проекта — отсечь повседневный информационный шум вокруг искусственного интеллекта и сфокусироваться на фундаментальных механизмах, возможностях и скрытых закономерностях современных моделей. В первой части отчета автор разбирает, как обучаются современные ИИ, в чем они превосходят человека и почему их поведение порой кажется проявлением «инопланетного» разума.

🚀 На пороге человеческого уровня: скрытые рекорды ИИ 8:45

В апреле 2022 года компания Google опубликовала статью о модели PaLM. В ней использовался бенчмарк BIG-bench, состоящий из 150 различных задач. Исследователи сравнили результаты ИИ с показателями нанятых людей и обнаружили, что средний балл модели превысил средний балл человека. Лабенц иронично называет это «величайшим зарытым в текст заголовком всех времен», поскольку прохождение столь критического порога осталось малозамеченным. Оценка профилей тестировщиков на LinkedIn показала, что это были дипломированные сотрудники компании по обеспечению качества ПО, то есть квалифицированные участники современной экономики.

Еще более впечатляющие результаты демонстрируют специализированные модели. Проект MedPaLM 2 от Google набрал 86% на экзамене для получения медицинской лицензии США, что соответствует уровню эксперта. При слепом тестировании ответов ИИ и живых врачей девятью независимыми медицинскими экспертами ИИ победил в 8 из 9 категорий. Модель давала более эмпатичные ответы и точнее следовала медицинскому консенсусу, уступив человеку лишь в объеме избыточной информации.

Тем не менее, Лабенц подчеркивает строгие границы текущих технологий. Современный ИИ пока не способен самостоятельно вести полноценные научные проекты на переднем крае науки. По мнению спикера, суть научной работы заключается в выдвижении неочевидных гипотез, ради проверки которых стоит тратить реальные ресурсы. В этом аспекте большие языковые модели выдают лишь усредненные, уже хорошо известные человечеству подходы.

🥊 Сравнение когнитивных сил: ИИ против человека 17:05

Для наглядности Лабенц проводит детальное сравнение характеристик универсального ИИ и человека:

🧠 Архитектура Transformer: под капотом «цифрового мозга» 27:48

Фундамент ИИ держится на трех китах: данных, вычислительной мощности и алгоритмах. Прогнозы футуролога Рэймонда Курцвейла, сделанные в конце 1990-х годов, оказались удивительно точными. Его график предсказывал, что вычислительная мощность ИИ сравняется с мощностью одного человеческого мозга примерно к 2020 году, что совпало с появлением крупнейших современных моделей.

Архитектура Transformer — это сложная информационная схема. С технической точки зрения процесс работы выглядит так:

  1. На вход подаются токены — фрагменты слов, знаки препинания или символы.
  2. Токены превращаются в массивы чисел — этот процесс называется эмбеддингом (embedding).
  3. Данные проходят через слои внимания (attention heads) и многослойные перцептроны (MLP), которые трансформируют числовые значения.
  4. Информация движется по так называемому резидуальному потоку (residual stream), где результаты обработки постоянно суммируются.
  5. Промежуточные значения на каждом слое называются активациями (activations).
  6. На выходе модель выдает логиты (logits) — распределение вероятностей для всех 50 000+ возможных токенов в словаре.

Лабенц подчеркивает, что на самом низком уровне вся эта магия представляет собой обычное матричное умножение — колоссальный объем операций умножения и сложения. Параметры (или веса) — это числа, которые хранятся в архитектуре и ждут входящих данных для трансформации. В модели GPT-3 таких параметров 175 миллиардов, распределенных примерно по 70 слоям. Главный плюс Transformer — возможность параллельных вычислений на GPU, в отличие от последовательных старых архитектур (RNN).

📉 Как тренируют ИИ: от случайных чисел к точному результату 46:33

В начале обучения все 175 миллиардов весов заполняются абсолютно случайными числами. Процесс превращения хаоса в интеллект строится на итерациях:

При обучении на размеченных данных датасет делят на тренировочный и валидационный. Обычно наступает момент, когда ошибка на тренировочном наборе продолжает падать, а на валидационном начинает расти. Это явление называется переобучением (overfitting) — модель просто зазубривает особенности примеров, теряя способность к генерализации. Раньше на этом этапе обучение всегда останавливали.

📈 Законы масштабирования и переход к самообучению 57:08

Чтобы обойти нехватку размеченных людьми данных, исследователи перешли к самообучению (unsupervised learning). Две самые изящные функции потерь, перевернувшие индустрию — это предсказание следующего слова в тексте и очищение изображений от шума (denoising). Весь интернет стал идеальным саморазмеченным датасетом.

Исследование chinchilla от DeepMind сформулировало законы масштабирования (scaling laws) через изофлопные кривые (isoflop curves). Они показывают баланс: при фиксированном бюджете вычислений слишком большая модель не успеет пройти достаточно циклов обучения, а слишком маленькой модели не хватит параметров для удержания знаний. В GPT-3 компания OpenAI выбрала избыточный размер модели.

Современный тренд, заданный моделью Llama от Meta — сдвиг в сторону меньших моделей, но с гораздо более длительным циклом обучения. По мнению Лабенца, это оптимизирует стоимость модели на этапе инференса (работы), а не только обучения.

🎭 Скрытые смыслы и феномен «Гроккинга» 1:08:13

Масштабирование приводит к появлению эмерджентных свойств. В 2017 году сотрудники OpenAI обнаружили в модели, которая просто предсказывала следующую букву в отзывах Amazon, так называемый «нейрон сентимента». Этот внутренний параметр безошибочно классифицировал отзыв как позитивный или негативный, став лучшим детектором тональности на рынке. ИИ развил сложную внутреннюю классификацию просто как средство для выполнения базовой задачи.

Еще более фундаментальный сдвиг описан в исследовании феномена «гроккинга» (grokking). Ученые взяли простую задачу модульного сложения и продолжили обучать модель в тысячу раз дольше точки переобучения. Спустя сотни тысяч шагов модель внезапно «осознала» общие правила математики и начала идеально решать примеры из валидационного сета. Проведя реверс-инжиниринг, исследователи обнаружили, что нейросеть самостоятельно вывела сложнейший тригонометрический алгоритм вращения. По словам Лабенца, этот способ решения абсолютно чужд человеческому мышлению, что заставляет говорить об ИИ как об «инопланетном разуме» (alien intelligence).

Аналогично, модель Othello-GPT, обучаясь исключительно на текстовых последовательностях ходов настольной игры, самостоятельно построила внутри себя геометрическую проекцию доски и отслеживала состояние каждого поля.

Главный вывод Лабенца: общие законы масштабирования позволяют предсказать совокупное снижение математической ошибки (loss), но появление конкретных навыков остается непредсказуемым. Ярким примером служит логическая задача «hindsight neglect» (ошибка ретроспективного детерминизма). С увеличением масштаба ранние модели справлялись с ней все хуже и хуже, заучивая ложные ассоциации. Но в GPT-4 произошел резкий фазовый переход, и точность прыгнула до идеальных показателей. Индустрия пока не знает, какие именно навыки «грокнут» системы следующего поколения при новом витке масштабирования вычислений.

💬 Цитаты

«Внутреннее представление того, является ли отзыв положительным или отрицательным, помогает модели делать предсказания.»

Нейтан Лабенц 1:10:40

«Мы имеем дело не просто с искусственным, а с инопланетным разумом.»

Нейтан Лабенц 1:18:10
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Токен
Минимальная единица текста (слово, часть слова или символ), которую обрабатывает нейросеть.
Эмбеддинг
Процесс преобразования токенов в числовые векторы для обработки алгоритмами.
Функция потерь
Математическая метрика, оценивающая степень отклонения ответов модели от правильных.
Гроккинг
Феномен, при котором модель внезапно переходит от зазубривания данных к полному пониманию общих правил после длительного переобучения.
📊 Цифры
🗓 Хронология
  1. 2017 год OpenAI обнаруживает «нейрон сентимента» внутри модели предсказания букв.
  2. Апрель 2022 года Google публикует результаты модели PaLM, превзошедшей человека на бенчмарке BIG-bench.
  3. Июнь 2023 года Нейтан Лабенц презентует первую часть своего отчета AI Scouting Report.
⚖️ Другая сторона
Искусственный интеллект Нейтан Лабенц OpenAI Google ChatGPT Transformer