Модель o3 от OpenAI побила человеческий рекорд в тесте ARC-AGI: Наступила ли эра AGI?

Wes Roth 156 тыс. 17 мин 5 мин 21.12.2024
Главное

20 декабря 2024 года может войти в историю как день, когда границы между человеческим и искусственным интеллектом окончательно размылись. Компания OpenAI представила результаты своей новой модели o3, которая не просто улучшила показатели предшественников, а буквально сокрушила считавшийся «непроходимым» для нейросетей тест ARC-AGI. Ведущий канала Wes Roth анализирует, можно ли считать этот прорыв официальным моментом достижения сильного искусственного интеллекта (AGI) и какую цену человечеству придется заплатить за «мыслительные процессы» машин.

🚀 Прорыв o3: Конец человеческого доминирования в тестах 0:00

На прямой трансляции 20 декабря 2024 года OpenAI представила модель o3, результаты которой заставили индустрию пересмотреть сами критерии оценки интеллекта . До этого момента считалось, что если модель преодолеет порог в 85% в тесте ARC-AGI (уровень человеческих способностей), это будет означать достижение AGI . Модель o3 показала ошеломляющие результаты:

По мнению Уэса Рота, большинство существующих бенчмарков, которые сравнивали ИИ с человеческими способностями, теперь «насыщены» или достигли своего предела . Президент Arc Foundation Грег Камрадт утверждает, что нам всем необходимо обновить свою интуицию относительно того, что такое ИИ и на что он способен, поскольку технологический барьер был сломлен .

🧠 Новая парадигма: Интеллект через время на раздумья 2:50

Ключевым отличием новых моделей OpenAI (семейства o1 и o3) является использование агрессивных вычислений во время вывода (test-time compute) . Вместо того чтобы просто вливать ресурсы в стадию обучения, исследователи дают модели больше времени на «размышления» перед выдачей ответа .

У моделей o-серии есть своего рода «внутренний монолог» или цепочка рассуждений (Chain of Thought), которую исследователи OpenAI могут отслеживать . Уэс Рот объясняет это так: каждый «токен мысли» стоит денег, и точность ответа теперь напрямую коррелирует с объемом затраченных вычислительных мощностей.

В рамках официального теста ARC-AGI действуют строгие правила: решение не должно использовать ресурсы стоимостью более 10 000 долларов . В этих рамках o3 заняла первое место среди всех ИИ-моделей в истории с результатом 76% . Однако при использовании неограниченных ресурсов и времени на раздумья модель показала еще более впечатляющий результат, который OpenAI предпочла официально не публиковать во всех деталях, чтобы избежать обвинений в «грубой силе» .

💰 Цена «гениальности»: Сколько стоит один тест? 5:37

Важным аспектом оценки ИИ становится не только точность, но и эффективность. OpenAI вводит метрику «бюджета логического вывода» (inference budget) .

Сравнение двух режимов работы o3 в тесте ARC-AGI:

  1. Высокая эффективность (High efficiency): результат 75,7%, использовано 33 миллиона токенов, время на одну задачу — чуть более минуты .
  2. Высокая вычислительная мощность (High compute): результат 87,5%, использовано 5,7 миллиарда токенов, время на одну задачу — 13,8 минут .

Уэс Рот провел расчеты (используя ChatGPT в режиме «Бората» для забавы), чтобы выяснить розничную стоимость прогона теста в режиме высокой мощности . По его оценкам, получение результата 87,5% стоило примерно 347 000 долларов в эквиваленте вычислительных ресурсов . Это подчеркивает, что хотя модель и превзошла человеческий порог в 85%, она сделала это ценой огромных затрат, которые на порядки превышают человеческие энергозатраты.

🧐 Мнение создателя теста: Спор о природе AGI 8:02

Франсуа Шолле, создатель бенчмарка ARC-AGI и бывший сотрудник Google, считает результаты o3 значительным прорывом в способности ИИ адаптироваться к новым задачам . Его тест был специально разработан так, чтобы его нельзя было пройти за счет простой зубрежки или огромного набора данных — он требует истинного логического вывода для решения задач, которые ИИ никогда раньше не видел .

Тем не менее Шолле сохраняет определенный скептицизм:

Шолле называет текущую ситуацию «новой территорией», требующей серьезного научного внимания .

📉 Разрушение мифа о «тупике» в развитии ИИ 13:06

В последнее время многие СМИ сообщали о том, что прогресс в области ИИ замедлился и разработчики «уперлись в стену» из-за нехватки данных для обучения . Однако результаты o3 говорят об обратном. Исследователь OpenAI Джейсон отмечает, что путь от o1 до o3 занял всего 3 месяца .

Это свидетельствует о переходе к новой парадигме:

🛠️ Практическое применение и «быстрота соображения» 15:03

Уэс Рот делится личной историей, чтобы проиллюстрировать текущий уровень ИИ. Во время обеда со знакомыми, планировавшими стартап в сфере биотехнологий, он ввел описание их навыков и ограничений в ChatGPT . Группа состояла из эксперта по FDA, инженера топ-уровня и других специалистов. Ответ нейросети с идеей продукта буквально «поразил» участников обсуждения своей точностью и актуальностью — это было то решение, до которого они сами не могли додуматься долгое время .

По мнению Рота, ИИ становится «быстрее на подъем», чем значительная часть населения . Он не утверждает, что ИИ однозначно умнее каждого человека, но он определенно лучше справляется со сложными когнитивными задачами, чем средний обыватель .

Сэм Альтман, генеральный директор OpenAI, полагает, что достижение AGI не будет разовым порогом, а станет постепенным процессом . В то же время он предупреждает о странности будущего, где за «чуть большую производительность» придется платить «экспоненциально больше денег» .

💬 Цитаты

«Нам нужно обновить наши интуитивные представления о том, что такое ИИ и что он может делать.»

Грег Камрадт 1:31

«Это новая территория, и она требует серьезного научного внимания.»

Франсуа Шолле 11:48

«Мы получим AGI, когда создание таких тестов станет попросту невозможным.»

Франсуа Шолле 12:53
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
AGI
Сильный искусственный интеллект, способный выполнять любую интеллектуальную задачу на уровне человека или выше.
ARC-AGI
Тест, разработанный Франсуа Шолле, проверяющий способность ИИ решать новые задачи, не полагаясь на заученные данные.
Chain of Thought
Метод, позволяющий ИИ разбивать сложные задачи на последовательные шаги рассуждения перед выдачей ответа.
Overfitting
Переобучение: ситуация, когда модель просто запоминает тренировочные данные, но не может работать с новой информацией.
Inference Compute
Вычислительные мощности, используемые ИИ непосредственно в момент генерации ответа (время на раздумья).
📊 Цифры
🗓 Хронология
  1. 2017 год Франсуа Шолле пишет эссе об ограничениях глубокого обучения.
  2. 20 декабря 2024 года OpenAI официально анонсирует модель o3 и её результаты в бенчмарках.
⚖️ Другая сторона
Искусственный интеллект OpenAI ARC-AGI Франсуа Шолле o3 AGI