Уэс Рот: «ИИ уже способен заработать 400 000 долларов на реальных задачах по кодингу»

Компания OpenAI представила SWE-Lancer — инновационный бенчмарк, призванный оценить способности искусственного интеллекта в решении реальных задач по разработке программного обеспечения. В отличие от традиционных тестов, SWE-Lancer измеряет эффективность моделей не в абстрактных баллах, а в реальной рыночной стоимости выполненных работ, используя данные фриланс-платформы Upwork на общую сумму более 1 миллиона долларов . Этот шаг знаменует переход от теоретических оценок ИИ к анализу его прямого экономического влияния на рынок труда и индустрию кодинга.

💰 SWE-Lancer: Бенчмарк на миллион долларов 0:00

OpenAI представила SWE-Lancer как инструмент для исследования экономического эффекта от развития моделей ИИ . Бенчмарк включает в себя более 1400 реальных задач по программной инженерии, взятых с платформы Upwork . Общая стоимость этих задач в реальных выплатах составляет 1 000 000 долларов США .

По словам ведущего Уэса Рота, этот бенчмарк делает важный скачок от обсуждения оценок к реальной валюте и оплате труда . Задачи в наборе данных крайне разнообразны:

Исправление мелких багов стоимостью от 50 долларов.
Реализация сложных функций с гонораром до 32 000 долларов .
Управленческие задачи, где модели выступают в роли техлидов .

Рот отмечает, что OpenAI стремится сопоставить производительность моделей с денежной стоимостью, чтобы лучше понять, какой процент рабочей силы может быть автоматизирован или заменен инструментами ИИ в будущем .

🛠 Методология: как ИИ «зарабатывает» деньги 3:53

Исследователи разделили задачи на две основные категории, чтобы протестировать различные навыки моделей:

Индивидуальный исполнитель (Individual Contributor, IC): Модели должны генерировать программные патчи для решения конкретных технических проблем. Результатом является код, удовлетворяющий требованиям .
Менеджер (SWE Manager): Модели действуют как технические руководители, выбирая лучшее предложение по реализации из нескольких вариантов, предложенных другими пользователями .

Процесс тестирования IC-задач имитирует реальную работу над кодом. Разработчики берут кодовую базу и «откатывают» её до состояния, предшествующего исправлению ошибки человеком . Модели предлагается создать решение, которое затем проверяется с помощью сквозных тестов (end-to-end), написанных людьми . Если тест пройден — ИИ «получает» выплату, если нет — заработок равен нулю .

В менеджерских задачах выбор ИИ сравнивается с решением, которое принял опытный человек-менеджер в реальной ситуации . Если ИИ выбирает тот же путь решения, задача считается выполненной успешно.

📈 Кейс Expensify: динамическое ценообразование и сложность 6:42

В качестве примера реальных данных Рот приводит компанию Expensify — публичную компанию с оборотом 300 миллионов долларов, торгующуюся на Nasdaq, чьими сервисами пользуются 12 миллионов человек . Expensify использует открытый репозиторий и выставляет задачи на Upwork с конкретными выплатами для фрилансеров .

Особый интерес представляет механизм определения стоимости задач. Рот описывает случай с исправлением ошибки валидации почтового индекса, за который ИИ «получил» 8 000 долларов . Изначально за эту задачу предлагали 1 000 долларов, но цена динамически росла:

Неделя 1: Предложено 1 000 долларов, задача не решена .
Неделя 2: Цена выросла до 2 000 долларов, пять предложенных решений были отклонены .
Неделя 4: Цена увеличилась до 4 000 долларов, когда стала ясна истинная сложность задачи, требующая валидации по всем мировым почтовым кодам .
Итог: После итераций с менеджером вознаграждение составило 8 000 долларов .

По мнению Уэса Рота, такая система является отличным способом оценки сложности, так как цена формируется глобальным рынком . Если мировое сообщество не готово решить задачу за тысячу, цена растет, пока не будет найден исполнитель.

🏆 Результаты: Claude против OpenAI 9:47

Результаты тестирования современных моделей оказались выше ожиданий ведущего. Лидером среди доступных моделей стала Claude 3.5 Sonnet, которая смогла «заработать» 403 325 долларов из миллиона возможных .

Статистика выплат для других моделей:

Claude 3.5 Sonnet: $403 325 (около 40% всех задач) .
OpenAI o1: $380 000 (38%) .
GPT-4o: $300 000 (30%) .

Рот подчеркивает, что невыпущенная модель OpenAI o3 показывает еще более впечатляющие результаты. В тесте SWE-Verified она на 42% эффективнее, чем Claude 3.5 Sonnet . Экстраполируя эти данные, Рот предполагает, что o3 могла бы заработать более 572 000 долларов на задачах SWE-Lancer .

🧠 Связь между «размышлениями» и прибылью 12:00

Исследование подтвердило прямую зависимость между объемом вычислительных ресурсов (compute), затраченных на «размышления» модели, и её финансовой эффективностью. На примере модели o1 было показано, что увеличение времени на рассуждения (от низкого до высокого уровня усилий) значительно повышает точность решения сложных и дорогих задач .

Рот проводит аналогию с призом Arc AGI, где модель o3 при низких вычислительных затратах показывает результат 76%, а при высоких (High Compute) — достигает 88%, превосходя базовый уровень способностей человека . Хотя стоимость запуска модели в режиме глубоких размышлений велика (для o3 в тестах она могла составлять более 300 000 долларов по розничным ценам API), точность ответов растет экспоненциально .

⚠️ Будущее работы: ИИ против фрилансера 15:03

Одной из самых тревожных тем обсуждения стало сравнение выплат фрилансерам со стоимостью API для выполнения тех же задач . По мнению Рота, цифры могут оказаться «пугающими».

Ведущий предполагает следующие сценарии:

Задача, за которую человек получает 8 000 долларов, может быть решена ИИ-моделью по цене «меньше, чем заезд в Starbucks» .
Если использовать локальные open-source модели, стоимость решения сложных задач может свестись к затратам на электроэнергию .

Рот отмечает стремительный прогресс: еще недавно люди выполняли 100% этой работы, а сейчас ИИ уже справляется с 40% . С учетом невыпущенных моделей (таких как o3 или внутренние разработки OpenAI), доля задач, доступных только людям, может сократиться до 43% и ниже в ближайшем будущем .

В завершение Уэс Рот призывает не паниковать, но признает, что ситуация выглядит «вызывающей беспокойство» . Он полагает, что подобные бенчмарки станут новым полем битвы для ИИ-гигантов, где OpenAI, Google и Anthropic будут бороться за звание самого экономически эффективного «цифрового инженера» .