o3-mini: тест новой модели с навыками автономного машинного обучения

Новая эра автономности: почему o3-mini меняет правила игры 0:00

Вес Рот протестировал свежую модель o3-mini (версию o3-mini High), чтобы оценить её возможности в написании кода и машинном обучении. В ходе эксперимента модель не только создала работающую игру «Змейка», но и самостоятельно разработала систему машинного обучения, способную тренироваться и совершенствовать свои навыки в этой игре. По мнению Рот, это демонстрирует качественный скачок в развитии AI-агентов, которые переходят от простого написания кода к решению комплексных задач по самообучению.

🐍 Игровая разработка и первые шаги 2:21

В ходе тестирования Вес Рот попросил модель написать код для игры «Змейка» на Python, а затем постепенно усложнять задачу. Модель справилась с базовым функционалом практически мгновенно.

Основные этапы усложнения:

Базовая логика: Модель создала скрипт, позволяющий змейке автоматически играть в игру, поедая фрукты.
Система баллов: Был добавлен алгоритм, где фрукты разных цветов приносили разное количество очков.
Интеграция препятствий: Автор добавил «ловушки», появляющиеся каждые две секунды, чтобы ограничить время жизни змейки.

По словам автора, модель успешно адаптировала код для обхода препятствий, что ранее было недоступно предыдущим итерациям AI.

🧠 Создание самообучающегося AI-агента 7:11

Следующей задачей стало обучение агента играть в созданную «Змейку» с использованием методов обучения с подкреплением (reinforcement learning). Модель предложила использовать библиотеку PyTorch, разработанную Meta, для создания нейросети.

Процесс обучения строился на следующих принципах:

Среда: Определение пространства действий (движение влево, вправо, прямо).
Функция вознаграждения: Положительные баллы за поедание фруктов, отрицательные — за столкновения со стенами или ловушками.
Итерации: Агент прошел через 500 эпизодов, постепенно улучшая свои результаты.

Автор отмечает, что поначалу агент демонстрировал низкие показатели, совершая случайные действия, но к 500-му эпизоду количество положительных результатов значительно возросло, подтверждая способность системы обучаться на основе заданных правил.

⚖️ Экспертный анализ и ограничения 17:53

Несмотря на впечатляющие результаты, Вес Рот столкнулся с рядом нюансов, требующих вмешательства человека.

Технические сложности: Возникали ошибки совместимости при запуске кода на Windows, что требовало доработки или корректировки со стороны пользователя.
Проблемы логики: В какой-то момент агент начал «гоняться за собственным хвостом» из-за цвета фруктов, совпадающего с цветом самого агента. Это классическая проблема в машинном обучении, связанная с некорректной функцией вознаграждения.
Контекст: При написании больших блоков кода модель может начать терять контекст, что требует от пользователя умения структурировать запросы.

По мнению Рот, опыт использования o3-mini напоминает работу с «высокооплачиваемым умным ассистентом». Иногда модель отказывается следовать буквальной инструкции, предлагая вместо этого более элегантное и технически верное решение.

Автор подчёркивает, что развитие подобных моделей больше не является инкрементальным улучшением, а выглядит как значительный шаг вперёд. o3-mini официально стала первой моделью, достигшей «среднего уровня риска» (medium risk) по шкале автономности OpenAI, так как её способности уже позволяют создавать инструменты для самообучения, что в перспективе может привести к созданию полностью автономных AI-исследователей.