Теджал Патвардхан: «Почему старые тесты для ИИ больше не работают»

Как OpenAI измеряет прогресс ИИ: почему старые тесты больше не работают 0:00

Теджал Патвардхан, руководитель команды по оценке передовых моделей (frontier evals) в OpenAI, обсуждает с ведущим Эндрю Мейном, как быстрое развитие технологий делает классические бенчмарки бесполезными. Главная мысль беседы: существующие системы оценки моделей часто либо «насыщаются» (модели решают их почти идеально), либо не отражают реальных возможностей ИИ в сложной, амбициозной работе.

🧪 Эволюция оценки: от математики к «реальной работе» 11:12

История тестирования ИИ в OpenAI прошла путь от простых академических задач до попыток имитировать работу профессионала в реальных условиях.

Кризис старых тестов: Раньше бенчмарки опирались на школьные или университетские тесты с вопросами с несколькими вариантами ответов. По мере того как модели становились умнее, они начали проходить эти тесты практически без ошибок, что лишило их способности различать уровень интеллекта.
Бенчмаркинг как проблема: Патвардхан критикует «BenchMaxxing» — стремление оптимизировать модель исключительно ради высоких баллов в тестах, а не ради её реальной полезности для пользователя.
Новый подход: Современные тесты должны быть сложными, реалистичными и охватывать многошаговые действия в реальных средах. Одним из таких методов стало тестирование способности моделей взаимодействовать с реальными кодовыми базами (например, SWE-bench Verified).

📉 Что такое «насыщенный» бенчмарк 14:01

По мнению Патвардхан, бенчмарк считается «насыщенным», если современные модели решают его почти на 100%. В этот момент тест перестает быть полезным, так как он больше не позволяет ранжировать «гениальные» модели, превращаясь в аналог школьного экзамена для ученых. Задача команды по оценке — создавать новые, более амбициозные и сложные задачи, чтобы «идти в ногу» с прогрессом.

🧬 ИИ в науке: от тестов к реальным лабораториям 24:48

Одной из самых захватывающих областей стали научные оценки, где ИИ доказывает свою состоятельность в биологии и химии.

Frontier Science Research: Моделям предлагали завершить неопубликованные тезисы PhD-уровня по биологии, химии и физике, оценивая результат по строгой рубрике.
Эксперимент с Ginkgo Bioworks: В рамках тестирования модель должна была оптимизировать протокол синтеза белка, связанного с лекарством от рака яичников. Роботы в «мокрой» лаборатории выполняли рекомендации ИИ. Модель не просто справилась — она побила человеческий «базовый уровень» эффективности.

⚖️ АГI-индекс и «человеческий фактор» 23:13

Вместо того чтобы гнаться за публичными показателями, OpenAI использует внутренний «AGI-индекс» — своего рода корзину оценок, похожую на потребительскую корзину для расчета инфляции. Она включает измерения в областях безопасности, согласованности (alignment) и способностей (capabilities).

Тем не менее, Патвардхан подчеркивает, что несмотря на мощь ИИ, человеческий контроль остается критически важным. Модели все еще могут выдавать «небрежные» ответы, поэтому эксперты OpenAI тщательно перепроверяют данные тестов, чтобы убедиться в качестве каждого показателя.