OpenAI Codex: революция в разработке или продвинутая поисковая машина по GitHub?

OpenAI Codex вызвал волну восторженных отзывов в сети, однако за виральными роликами скрывается сложная реальность: от 90% ошибок при генерации до споров о том, является ли это настоящим интеллектом или просто продвинутой поисковой машиной. В рамках дискуссии на канале Machine Learning Street Talk эксперты Янник Килчер, Коннор Лихи и Валид Саба разобрали технические возможности и фундаментальные ограничения новой модели.

🕹️ Испытание в «песочнице»: первые впечатления и подводные камни 0:00

Первое знакомство с OpenAI Codex часто вызывает восторженную реакцию, сравнимую с детским азартом . В ходе демонстрации участники пытались создавать простые игры и интерфейсы с помощью текстовых команд. Однако ведущий Machine Learning Street Talk отмечает критическую проблему — «предвзятость выбора» (selection bias) в видеороликах о Codex .

По словам ведущего, около 90% времени при работе с моделью уходит на исправление ошибок, которые остаются за кадром в большинстве демонстраций .

В процессе тестирования были получены следующие результаты:

Создание сетки 12x12: Модель успешно сгенерировала шахматную доску после уточнения промпта .
Интеграция объектов: Codex смог добавить изображение покемона в ячейку и реализовать его перемещение с помощью клавиш со стрелками, что участники назвали «невероятным» .
Проблемы с логикой: При попытке реализовать ускорение персонажа или сложные столкновения модель часто выдавала неработающий код или игнорировала команды .
Финансовые данные: Попытка написать скрипт для предсказания цены биткоина с помощью SVM (метод опорных векторов) привела к созданию стандартного шаблона, который никак не учитывал специфику данных .

Ведущий подчеркивает, что Codex генерирует код, подходящий скорее для «одноразового использования», и пока не способен помочь в написании ПО корпоративного уровня .

🛠️ Мнение Коннора Лихи: Копилот как инструмент для «рутинной работы» 18:50

Коннор Лихи охарактеризовал Codex как «ожидаемый», но впечатляющий прогресс по сравнению с GPT-3 . Он отметил, что GPT-3 изначально имела крайне неэффективный токенизатор для кода (например, каждый пробел в отступе мог считаться отдельным токеном), поэтому создание специализированной модели было логичным шагом .

Ключевые тезисы Коннора Лихи:

Эффективность GitHub Copilot: По мнению Лихи, этот продукт уже полезен, так как позволяет автоматизировать скучные части разработки, ускоряя работу программиста примерно на 20% .
Замена «код-манки»: Лихи полагает, что модель не заменит гениальных разработчиков на Haskell, но значительно повысит продуктивность рядовых программистов, занимающихся написанием шаблонного (boilerplate) кода на JavaScript .
Экстраполяция будущего: Лихи утверждает, что в будущем создание приложений и стартапов будет возможно через простое общение с компьютером на естественном языке .

Лихи также высказал спорную мысль: «Достаточно сложная интерполяция или достаточно сложное запоминание неотличимы от интеллекта» . Он считает, что многие критики используют слово «просто» (например, «просто запоминание»), чтобы обесценить возможности нейросетей, хотя люди часто ведут себя аналогично моделям .

⚖️ Янник Килчер о необходимости контроля и «судебном» программировании 35:47

Янник Килчер считает, что Codex пока не готов к полноценному использованию в том виде, в котором его рекламируют . По его мнению, пользователь всё ещё должен уметь программировать, чтобы:

Читать и проверять сгенерированный код на наличие ошибок .
Переформулировать запросы, когда модель не понимает контекст (например, зацикливание функции проверки столкновения шаров) .
Вносить правки вручную .

Янник Килчер выделяет сильные стороны модели:

Автоматизация SQL: Codex отлично справляется с созданием SQL-запросов для заданных моделей данных, понимая даже связи по внешним ключам (foreign keys) .
Удаление рутины: Около 90% кода на Java (геттеры, сеттеры) может быть автоматизировано .

Килчер сравнил Codex с беспилотными автомобилями: со временем мы можем привыкнуть к тому, что машины совершают меньше ошибок, чем люди, даже если их промахи иногда будут выглядеть нелепо .

🔍 Валид Саба: Информационный поиск против абстрактного мышления 43:31

Валид Саба выразил восхищение техническим достижением OpenAI, назвав сопряжение естественного языка с кодом «очень крутым» . Однако он строго разделяет внешнюю эффектность и реальный ИИ.

Основные выводы Валида Сабы:

Это не генерация, а извлечение: По утверждению Сабы, Codex — это «массивная машина для поиска информации» (IR machine), которая «переварила» миллиарды строк кода из GitHub .
Отсутствие новизны: Саба считает, что если попросить модель написать принципиально новый алгоритм, который ещё не встречался в репозиториях, она потерпит неудачу .
Когнитивный диссонанс: Саба полагает, что Codex впечатляет как поисковик, но как система ИИ, способная к абстрактным рассуждениям, он «даже не стучится в дверь» .

Саба видит будущее этой технологии в образовании: Codex может генерировать «скелеты» кода или примеры для новичков и студентов . Однако «автоматическое программирование» в полном смысле слова, по мнению учёного, всё ещё остаётся мечтой .

🏁 Резюме: Инструмент для чистого листа 50:55

Участники дискуссии сошлись на том, что на текущем этапе Codex наиболее полезен в режиме «старта с нуля» (blank slate), когда нужно быстро набросать структуру проекта . Использование модели в контексте жизненного цикла разработки крупного ПО на существующей кодовой базе пока видится затруднительным.

По мнению ведущего, несмотря на магические моменты «вау-эффекта», реальность такова, что инструмент пока не экономит время опытного инженера, так как требует постоянной проверки и отладки .