«Искры AGI»: Главные выводы из отчета Microsoft о возможностях GPT-4

Искры AGI: Глубокий разбор отчёта Microsoft о возможностях GPT-4 0:00

Недавний 154-страничный отчет исследователей Microsoft, проанализированный автором канала AI Explained, содержит громкие выводы о способностях GPT-4, которые, по мнению исследователей, демонстрируют «искры» искусственного общего интеллекта (AGI). Важно отметить, что авторы отчета имели доступ к необученной (unrestricted) версии модели еще за полгода до официального релиза, что позволило им детально изучить её потенциал без наложенных ограничений безопасности.

🛠 Инструментарий и автономность 1:07

Одним из ключевых открытий стало проявление у модели эмерджентной способности использовать сторонние инструменты с минимальными инструкциями, что ранее было недоступно для ChatGPT.

Работа с API: GPT-4 способна самостоятельно определить необходимость использования калькулятора или вызова API для подсчета символов, что значительно расширяет возможности модели в задачах, где требуется точность.
Генерация контента: Модель может выдавать текстовые промпты для создания детальных изображений, которые затем легко рендерятся нейросетями вроде Stable Diffusion 2.1.
Персональный помощник: Исследователи продемонстрировали работу GPT-4 в качестве полноценного ассистента: модель самостоятельно управляет календарем, координирует встречи по электронной почте и сообщает пользователю о статусе выполнения задач.

💻 Профессиональные компетенции 2:36

Согласно отчету, GPT-4 показывает результаты, сопоставимые с человеческими в технических и инженерных задачах.

Программирование: Модель успешно проходит имитации технических интервью на LeetCode, причем на «легких» задачах она достигает успеха в 86,4% случаев (при выборе лучшего результата из пяти попыток).
Разработка игр: При постановке сложной задачи на создание 3D-игры, GPT-4 способна выдать работающий код в режиме zero-shot (без примеров), в то время как ChatGPT заявляет о невозможности выполнения такой задачи.
Математика: Модель успешно справилась с задачами Международной математической олимпиады 2022 года, требующими творческого подхода, хотя иногда и допускает ошибки из-за проблем с базовыми вычислениями (что легко нивелируется подключением калькулятора).

🧠 Мышление и ограничения 6:28

Исследователи подтвердили способность GPT-4 строить «модели психического состояния» (Theory of Mind), то есть понимать, что думают или знают другие люди, отделяя их убеждения от реальности. Однако у модели есть фундаментальные слабости, связанные с её авторегрессионной природой.

Проблема планирования: Поскольку модель генерирует ответ токен за токеном, она не «видит» финала, прежде чем начать писать. Это делает её слабой в задачах, требующих знания конечного результата (например, написание стихотворения с зеркально обратным порядком предложений).
Проблема «дискретных задач»: По мнению автора видео, модель хороша в инкрементальных задачах (шаг за шагом), но пасует перед задачами, где нужно знать «панчлайн» (финальную точку) до начала исполнения, что объясняет низкое качество генерируемых ею шуток.

⚠️ Этические риски и будущее исследований 10:27

Отчет поднимает ряд тревожных вопросов, связанных с масштабируемостью и влиянием ИИ на общество.

Дезинформация: Неограниченная версия GPT-4 невероятно эффективна в создании масштабных кампаний по дезинформации и распространению теорий заговора, что, по опасениям автора, станет критической проблемой при попадании подобных версий в открытый доступ.
Права на контент: Исследователи прогнозируют рост юридических споров из-за того, что модели обучаются на данных, заимствованных у людей, чью работу они при этом замещают.
Агентность: Дискуссия о наделении ИИ «внутренней мотивацией» названа авторами отчета важным направлением работы. Автор видео выражает серьезные опасения по поводу этого вектора, указывая не только на этические вопросы о правах ИИ, но и на огромные риски для безопасности.

В заключении авторы отчета Microsoft признают: хотя возможности GPT-4 впечатляют, фундаментальные причины, почему она обладает такими навыками, остаются не до конца изученными. По мнению участников исследования, понимание механизмов работы подобных систем стало критически важной и срочной задачей.