# Янник Килчер о GPT-3: «Модель использует нечеткий поиск данных»

Источник: https://www.youtube.com/watch?v=7qPDwsCLbZc
Канал: Machine Learning Street Talk
Опубликовано: 06.06.2020

---

## Революция масштаба: анализ GPT-3 и природа обучения моделей 🚀
[[JUMP:00:04]]

Недавний выпуск OpenAI модели GPT-3 стал значимым событием в индустрии искусственного интеллекта. В глубоком техническом анализе на канале Machine Learning Street Talk ведущий Тим Скарф вместе с экспертами Янником Килчером и Коннором Шортеном обсуждают, как 175-миллиардная модель меняет парадигму NLP, переходя от узкой специализации к универсальному «обучению в контексте».

### 🧠 Архитектура и «трюк» с масштабированием
[[JUMP:00:46]]

GPT-3 — это авторегрессионная нейросеть с 175 миллиардами параметров, что в 10 раз превышает предыдущие крупнейшие аналоги. Фундаментальный вопрос дискуссии заключается в том, как удалось эффективно обучить столь гигантскую систему.

*   **Технологии обучения:** Модель использует оптимизации Zero-2 из библиотеки Microsoft DeepSpeed, которые позволяют эффективно распределять память оптимизатора, градиенты и параметры между множеством GPU.
*   **Авторегрессионный vs. Denoising:** В отличие от моделей типа BERT, которые являются двунаправленными (denoising autoencoders), GPT-3 предсказывает следующее слово, сохраняя строгую авторегрессионную направленность.
*   **Парадигма обучения:** Эксперты отмечают, что GPT-3 не требует «тонкой настройки» (fine-tuning) для конкретных задач. Вместо этого она использует «обучение в контексте» (in-context learning), где в качестве входного запроса подается описание задачи и несколько примеров, позволяя модели находить нужный ответ без изменения весов.

По мнению Янника Килчера, успех GPT-3 объясняется «нечетким поиском» (fuzzy lookup) и интерполяцией данных, которые модель усвоила в процессе обучения, а не подлинными способностями к рассуждению.

### ⚖️ Рассуждение или «умный попугай»?
[[JUMP:14:14]]

Один из центральных вопросов выпуска — способна ли модель к реальному логическому мышлению или это лишь сложный статистический трюк.

*   **Аргумент против рассуждений:** Янник Килчер полагает, что все задачи, в которых модель показывает успехи, можно объяснить интерполяцией между накопленными знаниями, а не логическим выводом.
*   **Математические способности:** Дискуссия вокруг математических задач показала, что модель «сдается» на сложных примерах, например, при умножении трехзначных чисел, хотя неплохо справляется с простыми операциями. По мнению ведущих, это лишь подтверждает, что модель «заучила» таблицу сложения как последовательность символов, присутствующую в обучающих данных.
*   **Система 1 против Системы 2:** Тим Скарф проводит аналогию с концепцией Даниэля Канемана. Он считает GPT-3 реализацией «Системы 1» — быстрого, интуитивного и детерминированного процесса, в то время как «Система 2» (медленное, логическое рассуждение) пока остается за пределами архитектуры трансформеров.

### 🌐 Коммерческая применимость и качество данных
[[JUMP:36:22]]

С практической точки зрения участники обсуждают, насколько GPT-3 полезна для бизнеса, например, для «интеллектуального анализа» (knowledge mining) в корпоративных документах.

*   **Проблема извлечения данных:** Тим Скарф сомневается в полезности GPT-3 для экстракции специфических знаний из документов компании, так как модель склонна давать абстрактные ответы, в то время как бизнесу нужны конкретные факты.
*   **Качество и чистота корпуса:** Огромный объем обучающих данных (более 500 ГБ текста) включает в себя как ценную информацию, так и шум. Существует проблема «загрязнения» данных, где даже дедупликация не всегда спасает от повторов, что влияет на способность модели адаптироваться к современным реалиям.

### 🚩 Проблемы предвзятости и исторический багаж
[[JUMP:128:22]]

Дискуссия коснулась этических аспектов, включая предвзятость (bias) и опасность генерации дезинформации.

*   **Исторический вес:** Модели неизбежно впитывают предвзятости прошлых лет. Если модель обучается на данных 1950-х годов, она транслирует взгляды того времени, что создает конфликт с современными нормами.
*   **Смещение как инструмент:** Участники пришли к интересному выводу: так называемое «дебайсинг» (удаление предвзятости) по своей сути является «байсингом» — активным смещением модели в сторону тех идеалов, к которым стремится общество.
*   **Фейковые новости:** Янник Килчер выразил скепсис по поводу опасности автоматической генерации фейков, отметив, что люди и так знают, что не любой текст в интернете достоверен. Настоящая опасность, по его мнению, заключается в усилении социальных стереотипов через предвзятые алгоритмы.