Янник Килчер о GPT-3: «Модель использует нечеткий поиск данных»

Machine Learning Street Talk 23,2 тыс. 1 ч 51 мин 3 мин 06.06.2020
Главное

Революция масштаба: анализ GPT-3 и природа обучения моделей 🚀 0:04

Недавний выпуск OpenAI модели GPT-3 стал значимым событием в индустрии искусственного интеллекта. В глубоком техническом анализе на канале Machine Learning Street Talk ведущий Тим Скарф вместе с экспертами Янником Килчером и Коннором Шортеном обсуждают, как 175-миллиардная модель меняет парадигму NLP, переходя от узкой специализации к универсальному «обучению в контексте».

🧠 Архитектура и «трюк» с масштабированием 0:46

GPT-3 — это авторегрессионная нейросеть с 175 миллиардами параметров, что в 10 раз превышает предыдущие крупнейшие аналоги. Фундаментальный вопрос дискуссии заключается в том, как удалось эффективно обучить столь гигантскую систему.

По мнению Янника Килчера, успех GPT-3 объясняется «нечетким поиском» (fuzzy lookup) и интерполяцией данных, которые модель усвоила в процессе обучения, а не подлинными способностями к рассуждению.

⚖️ Рассуждение или «умный попугай»? 14:14

Один из центральных вопросов выпуска — способна ли модель к реальному логическому мышлению или это лишь сложный статистический трюк.

🌐 Коммерческая применимость и качество данных 36:22

С практической точки зрения участники обсуждают, насколько GPT-3 полезна для бизнеса, например, для «интеллектуального анализа» (knowledge mining) в корпоративных документах.

🚩 Проблемы предвзятости и исторический багаж

Дискуссия коснулась этических аспектов, включая предвзятость (bias) и опасность генерации дезинформации.

💬 Цитаты

«Любая проблема может быть решена как задача распознавания образов, если ваши тренировочные данные охватывают достаточно плотную выборку пространства проблемы.»

Гэри Блауэр 16:43

«Модели — это не просто таблицы поиска, это скорее таблицы нечеткого поиска и интерполяции.»

Янник Килчер 15:51
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Авторегрессионная модель
Тип модели, предсказывающий каждое следующее слово на основе всех предыдущих слов.
Zero-shot learning
Способность модели выполнять задачу без предварительного обучения на примерах этой конкретной задачи.
Fine-tuning
Процесс дообучения предварительно обученной модели на небольшом размеченном наборе данных для конкретной цели.
Perplexity
Метрика оценки языковых моделей: чем ниже значение, тем лучше модель предсказывает текст.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект GPT-3 OpenAI DeepSpeed NLP трансформеры