Янник Кильчер: «GPT-4 станет таким же прорывом, как GPT-3 в своё время»

В свежем выпуске ML News Янник Кильчер разбирает последние прорывы в области нейроинтерфейсов, новые математические решения для моделирования мозга и нарастающий ажиотаж вокруг следующего поколения языковых моделей. В центре внимания — технологии «чтения мыслей», амбициозные слухи о GPT-4 и этические баталии в академической среде ИИ.

🧠 Чтение мыслей: реконструкция визуальных образов и внутренней речи 0:15

Технологии декодирования активности мозга стремительно выходят на новый уровень, превращая научную фантастику в реальность. В исследовании «Seeing Beyond the Brain» авторы представили метод реконструкции изображений, которые видит человек, на основе данных функциональной МРТ (фМРТ).

Ключевые особенности технологии:

Метод: использование условных диффузионных моделей с маскированным моделированием.
Результат: восстановленные изображения сохраняют семантическое содержание оригинала, хотя и не совпадают с ним попиксельно.
Решение проблемы данных: авторы использовали предварительное обучение на неразмеченных данных фМРТ через автоэнкодер, что позволило обойти проблему нехватки обучающих пар «мозг-картинка».

Параллельно с этим, как отмечает ресурс NeuroscienceNews.com, разработан инвазивный интерфейс «мозг-компьютер», способный предсказывать «внутреннюю речь». На данный момент устройство распознаёт ограниченный набор слов (около восьми), но сам факт декодирования мыслей, которые не были произнесены вслух, является значимым прогрессом.

🧬 Математика нейронов: найдено аналитическое решение для взаимодействий 3:06

Рамин Хассани объявил о публикации в журнале Nature Machine Intelligence, которая может изменить подход к созданию биологически правдоподобных нейросетей. Исследователям удалось найти решение в замкнутой форме (closed-form solution) для дифференциального уравнения, описывающего взаимодействие между нейронами.

Преимущества этого открытия:

Отсутствие численных решателей: ранее для моделирования таких связей требовались сложные ODE-солверы.
Эффективность: теперь через формулу можно проводить прямое и обратное распространение ошибки (forward/backprop).
Доступность: реализация уже доступна для PyTorch и TensorFlow.

По мнению Янника Кильчера, хотя это и не гарантирует мгновенного превосходства над текущими архитектурами, открытие критически важно для симуляции реальных нейронных связей и поиска вдохновения в биологических структурах.

🚀 Слухи о GPT-4: мультимодальность и «колоссальный» масштаб 4:10

Индустрия замерла в ожидании следующей итерации модели от OpenAI. Несмотря на ранние заявления Сэма Альтмана о том, что GPT-4 не будет намного больше предшественницы, в Кремниевой долине циркулируют новые слухи, собранные аналитиком Альберто Ромеро.

Основные ожидания от GPT-4:

Масштабируемость: предполагается увеличение количества параметров на 2–3 порядка, хотя некоторые источники указывают на использование разреженных (sparse) архитектур.
Мультимодальность: модель может начать работать не только с текстом, но и с изображениями и видео.
Качественный скачок: по утверждению анонимных источников, уже тестировавших прототипы, разрыв между GPT-3 и GPT-4 будет таким же огромным, как между второй и третьей версиями.

Релиз модели, по слухам, может состояться в период с декабря по февраль. В связке с этим обсуждается сотрудничество OpenAI с компанией Cerebras, которая представила суперкомпьютер Andromeda с 13,5 миллионами ядер. Система состоит из 16 узлов CS-2 и предназначена для вычислений гигантского масштаба.

🌌 Биология и логика: проекты Meta AI 7:47

Подразделение Meta Research представило ESM Metagenomic Atlas — базу данных «темной материи» белковой вселенной. Проект охватывает сотни миллионов структур белков, полученных из метагеномных образцов (почва, вода, микробы), которые ранее не были каталогизированы.

Помимо биологии, Meta достигла успехов в обучении ИИ математическому мышлению. Исследователи применили вариант поиска по дереву Монте-Карло (MCTS) — алгоритм, прославивший AlphaGo, — для поиска доказательств в формальных математических системах. Это позволяет системе эффективно выбирать стратегии доказательства среди огромного количества возможных вариантов.

⚖️ Скандалы ICLR 2023: токсичность и «византийская» политкорректность 13:00

Период рецензирования работ для конференции ICLR 2023 ознаменовался серией конфликтов. Янник Кильчер выделяет несколько тревожных случаев:

Агрессивные опровержения: один из авторов в ответ на критику посоветовал рецензенту «окончить университет или хотя бы детский сад» перед написанием отзывов.
Закрытость моделей: возникла дискуссия о том, обязан ли автор сравнивать свой метод с закрытыми моделями (например, от Google), к которым нет публичного доступа.

Наибольший резонанс вызвал спор вокруг термина «византийский» (Byzantine) в статье о безопасности распределенных систем. Рецензент потребовал заменить устоявшийся технический термин, считая его оскорбительным для потомков жителей Византии и нарушающим этический кодекс ICLR.

Несмотря на вмешательство комитета по этике, который признал термин допустимым, Янник Кильчер считает этот инцидент «победой жалобщиков». По его мнению, формулировка комитета о том, что это «потенциально зарождающаяся проблема», создает прецедент для дальнейшего ограничения технической терминологии в будущем.

🛠️ Новые инструменты и модели недели 27:50

В завершение выпуска был представлен обзор полезных утилит и специализированных моделей:

Lovely Tensors: библиотека, превращающая нечитаемые массивы чисел в наглядную статистику с указанием формы, средних значений и наличия ошибок (NaN/Inf).
SafeTensors: новый формат от Hugging Face для безопасного хранения весов моделей, предотвращающий выполнение произвольного кода при загрузке (в отличие от стандартного pickle в PyTorch).
Velo: обучаемый оптимизатор, который показывает результаты на уровне или выше тщательно настроенных вручную методов вроде Adam.
Dream Texture: плагин для Blender, интегрирующий Stable Diffusion напрямую в процесс текстурирования 3D-объектов.

Также отмечен запуск проекта GPT Index — экспериментального способа организации и суммаризации больших объемов данных с помощью языковых моделей.