Теджал Патвардхан: «Почему старые тесты для ИИ больше не работают»

OpenAI 10,6 тыс. 44 мин 2 мин 16.06.2026
Главное

Как OpenAI измеряет прогресс ИИ: почему старые тесты больше не работают 0:00

Теджал Патвардхан, руководитель команды по оценке передовых моделей (frontier evals) в OpenAI, обсуждает с ведущим Эндрю Мейном, как быстрое развитие технологий делает классические бенчмарки бесполезными. Главная мысль беседы: существующие системы оценки моделей часто либо «насыщаются» (модели решают их почти идеально), либо не отражают реальных возможностей ИИ в сложной, амбициозной работе.

🧪 Эволюция оценки: от математики к «реальной работе» 11:12

История тестирования ИИ в OpenAI прошла путь от простых академических задач до попыток имитировать работу профессионала в реальных условиях.

📉 Что такое «насыщенный» бенчмарк 14:01

По мнению Патвардхан, бенчмарк считается «насыщенным», если современные модели решают его почти на 100%. В этот момент тест перестает быть полезным, так как он больше не позволяет ранжировать «гениальные» модели, превращаясь в аналог школьного экзамена для ученых. Задача команды по оценке — создавать новые, более амбициозные и сложные задачи, чтобы «идти в ногу» с прогрессом.

🧬 ИИ в науке: от тестов к реальным лабораториям 24:48

Одной из самых захватывающих областей стали научные оценки, где ИИ доказывает свою состоятельность в биологии и химии.

⚖️ АГI-индекс и «человеческий фактор» 23:13

Вместо того чтобы гнаться за публичными показателями, OpenAI использует внутренний «AGI-индекс» — своего рода корзину оценок, похожую на потребительскую корзину для расчета инфляции. Она включает измерения в областях безопасности, согласованности (alignment) и способностей (capabilities).

Тем не менее, Патвардхан подчеркивает, что несмотря на мощь ИИ, человеческий контроль остается критически важным. Модели все еще могут выдавать «небрежные» ответы, поэтому эксперты OpenAI тщательно перепроверяют данные тестов, чтобы убедиться в качестве каждого показателя.

💬 Цитаты

«Generally bad. Benchmarking is bad.»

Теджал Патвардхан 00:06

«Hitting the wall is just so not the right way to think about. I feel like I've been looking at this model improvement and this progress for a long time and it just keeps getting better.»

Теджал Патвардхан 07:57

«I really think a lot of operations in the physical world will become part of the bottlenecks in being able to measure what the models can do.»

Теджал Патвардхан 28:19
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Capability overhang
Ситуация, когда модели уже способны на выполнение задач, но общество или индустрия еще не готовы их внедрять из-за культурных или правовых барьеров.
BenchMaxxing
Практика оптимизации модели исключительно ради высоких результатов в тестах, часто в ущерб общей полезности модели.
Wet lab (мокрая лаборатория)
Лаборатория, где проводятся эксперименты с химическими или биологическими веществами в жидкой форме (в отличие от «сухих» компьютерных симуляций).
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект OpenAI Tejal Patwardhan бенчмарки o1 фронтирные оценки