Новая эра автономности: почему o3-mini меняет правила игры 0:00
Вес Рот протестировал свежую модель o3-mini (версию o3-mini High), чтобы оценить её возможности в написании кода и машинном обучении. В ходе эксперимента модель не только создала работающую игру «Змейка», но и самостоятельно разработала систему машинного обучения, способную тренироваться и совершенствовать свои навыки в этой игре. По мнению Рот, это демонстрирует качественный скачок в развитии AI-агентов, которые переходят от простого написания кода к решению комплексных задач по самообучению.
🐍 Игровая разработка и первые шаги 2:21
В ходе тестирования Вес Рот попросил модель написать код для игры «Змейка» на Python, а затем постепенно усложнять задачу. Модель справилась с базовым функционалом практически мгновенно.
Основные этапы усложнения:
- Базовая логика: Модель создала скрипт, позволяющий змейке автоматически играть в игру, поедая фрукты.
- Система баллов: Был добавлен алгоритм, где фрукты разных цветов приносили разное количество очков.
- Интеграция препятствий: Автор добавил «ловушки», появляющиеся каждые две секунды, чтобы ограничить время жизни змейки.
По словам автора, модель успешно адаптировала код для обхода препятствий, что ранее было недоступно предыдущим итерациям AI.
🧠 Создание самообучающегося AI-агента 7:11
Следующей задачей стало обучение агента играть в созданную «Змейку» с использованием методов обучения с подкреплением (reinforcement learning). Модель предложила использовать библиотеку PyTorch, разработанную Meta, для создания нейросети.
Процесс обучения строился на следующих принципах:
- Среда: Определение пространства действий (движение влево, вправо, прямо).
- Функция вознаграждения: Положительные баллы за поедание фруктов, отрицательные — за столкновения со стенами или ловушками.
- Итерации: Агент прошел через 500 эпизодов, постепенно улучшая свои результаты.
Автор отмечает, что поначалу агент демонстрировал низкие показатели, совершая случайные действия, но к 500-му эпизоду количество положительных результатов значительно возросло, подтверждая способность системы обучаться на основе заданных правил.
⚖️ Экспертный анализ и ограничения 17:53
Несмотря на впечатляющие результаты, Вес Рот столкнулся с рядом нюансов, требующих вмешательства человека.
- Технические сложности: Возникали ошибки совместимости при запуске кода на Windows, что требовало доработки или корректировки со стороны пользователя.
- Проблемы логики: В какой-то момент агент начал «гоняться за собственным хвостом» из-за цвета фруктов, совпадающего с цветом самого агента. Это классическая проблема в машинном обучении, связанная с некорректной функцией вознаграждения.
- Контекст: При написании больших блоков кода модель может начать терять контекст, что требует от пользователя умения структурировать запросы.
По мнению Рот, опыт использования o3-mini напоминает работу с «высокооплачиваемым умным ассистентом». Иногда модель отказывается следовать буквальной инструкции, предлагая вместо этого более элегантное и технически верное решение.
Автор подчёркивает, что развитие подобных моделей больше не является инкрементальным улучшением, а выглядит как значительный шаг вперёд. o3-mini официально стала первой моделью, достигшей «среднего уровня риска» (medium risk) по шкале автономности OpenAI, так как её способности уже позволяют создавать инструменты для самообучения, что в перспективе может привести к созданию полностью автономных AI-исследователей.