Самир Сингх: «Языковые модели — это искусные имитаторы»

Исследование естественного языка: итоги и перспективы 2023 года 0:00

Прошедший год стал переломным для области обработки естественного языка (NLP), ознаменовавшись выходом таких инструментов, как ChatGPT и GPT-4. Самир Сингх, доцент кафедры компьютерных наук Калифорнийского университета в Ирвайне и сотрудник Института искусственного интеллекта Аллена (AI2), отмечает, что даже без учета громких релизов конца года, 2022-й стал периодом значительного прогресса, когда сообщество начало осознавать реальные возможности и ограничения больших языковых моделей (LLM).

🧠 Эволюция механизмов рассуждения 6:12

Одной из ключевых тем года стал отход от простой генерации текста к более сложным формам логического вывода.

Chain-of-Thought (Цепочка рассуждений): Идея заключается в том, чтобы заставить модель «думать пошагово», разбивая задачу на промежуточные этапы перед тем, как выдать ответ. Метод продемонстрировал впечатляющие результаты в математических и символьных задачах.
Алгоритмическое prompting-обучение: Исследователи из Google Brain развили эту идею, обучая модели выполнять крайне детальные пошаговые вычисления (например, при сложении многозначных чисел), что значительно повысило точность на числах, выходящих за рамки примеров в обучающей выборке.
Декомпозиция задач: Самир Сингх подчеркивает важность того, чтобы языковые модели не пытались выполнить все задачи самостоятельно, используя только собственные параметры. Вместо этого они должны уметь делегировать подзадачи другим инструментам: калькуляторам, системам веб-поиска или интерпретаторам Python.

🔍 Прозрачность данных и «черные ящики» 24:51

Сингх акцентирует внимание на необходимости анализа того, что именно содержится в данных для предобучения, так как это критически влияет на поведение моделей.

Частота терминов: Исследования показывают прямую корреляцию между частотой появления определенных числовых данных в предобучающей выборке и точностью модели в задачах, связанных с этими числами.
Проблема «вырезания и вставки»: Сингх предупреждает, что высокая точность модели может быть результатом не реального рассуждения, а статистического воспроизведения часто встречающихся паттернов из обучающих данных.
Доступ к данным: Гость подкаста выражает сожаление, что ключевые данные для обучения проприетарных моделей остаются закрытыми, что затрудняет аудит их безопасности и эффективности.

🛠 Инструменты, обучение и обратная связь 36:57

RLHF (обучение с подкреплением на основе отзывов людей): Этот метод стал «секретным ингредиентом» успеха ChatGPT. По мнению Сингха, RLHF помогает сместить фокус модели с простого «пересказывания» интернета на реальное взаимодействие с пользователем.
Open Source инициативы: Проекты вроде OPT (от Meta) и Bloom (от BigScience) стали важными вехами. Они доказали, что открытость, качественная документация и прозрачные процессы сбора данных позволяют академическим группам создавать модели, сопоставимые по масштабу с разработками Big Tech.
Управляемое декодирование: Современные методы, такие как «Neurologic A*», позволяют накладывать жесткие синтаксические ограничения на выходные данные моделей в процессе их генерации.

🔮 Прогнозы и будущее NLP 1:25:34

Самир Сингх выделяет три ключевых направления для исследований в ближайшее время:

Атрибуция и достоверность: Создание механизмов, которые отличают факты от творческих галлюцинаций и позволяют модели ссылаться на первоисточники.
Диффузионные модели для текста: Переход от генерации «токен за токеном» к генерации более крупных смысловых единиц, что может фундаментально изменить качество работы LLM.
Инкрементальные обновления: Разработка способов обновления знаний модели без необходимости полного переобучения, что критически важно для актуальности информации.

Сингх заключает, что, несмотря на скептицизм некоторых участников научного сообщества относительно закрытости популярных систем, реальная ценность заключается в продуктивности, которую дают эти технологии, как, например, GitHub Copilot, уже ставший незаменимым инструментом для многих разработчиков.