# o3-mini: тест новой модели с навыками автономного машинного обучения

Источник: https://www.youtube.com/watch?v=CqpDXeMIY1Q
Канал: Wes Roth
Опубликовано: 01.02.2025

---

## Новая эра автономности: почему o3-mini меняет правила игры
[[JUMP:00:00]]

Вес Рот протестировал свежую модель o3-mini (версию o3-mini High), чтобы оценить её возможности в написании кода и машинном обучении. В ходе эксперимента модель не только создала работающую игру «Змейка», но и самостоятельно разработала систему машинного обучения, способную тренироваться и совершенствовать свои навыки в этой игре. По мнению Рот, это демонстрирует качественный скачок в развитии AI-агентов, которые переходят от простого написания кода к решению комплексных задач по самообучению.

### 🐍 Игровая разработка и первые шаги
[[JUMP:02:21]]

В ходе тестирования Вес Рот попросил модель написать код для игры «Змейка» на Python, а затем постепенно усложнять задачу. Модель справилась с базовым функционалом практически мгновенно.

Основные этапы усложнения:

*   **Базовая логика:** Модель создала скрипт, позволяющий змейке автоматически играть в игру, поедая фрукты.
*   **Система баллов:** Был добавлен алгоритм, где фрукты разных цветов приносили разное количество очков.
*   **Интеграция препятствий:** Автор добавил «ловушки», появляющиеся каждые две секунды, чтобы ограничить время жизни змейки.

По словам автора, модель успешно адаптировала код для обхода препятствий, что ранее было недоступно предыдущим итерациям AI.

### 🧠 Создание самообучающегося AI-агента
[[JUMP:07:11]]

Следующей задачей стало обучение агента играть в созданную «Змейку» с использованием методов обучения с подкреплением (reinforcement learning). Модель предложила использовать библиотеку PyTorch, разработанную Meta, для создания нейросети.

Процесс обучения строился на следующих принципах:

1.  **Среда:** Определение пространства действий (движение влево, вправо, прямо).
2.  **Функция вознаграждения:** Положительные баллы за поедание фруктов, отрицательные — за столкновения со стенами или ловушками.
3.  **Итерации:** Агент прошел через 500 эпизодов, постепенно улучшая свои результаты.

Автор отмечает, что поначалу агент демонстрировал низкие показатели, совершая случайные действия, но к 500-му эпизоду количество положительных результатов значительно возросло, подтверждая способность системы обучаться на основе заданных правил.

### ⚖️ Экспертный анализ и ограничения
[[JUMP:17:53]]

Несмотря на впечатляющие результаты, Вес Рот столкнулся с рядом нюансов, требующих вмешательства человека.

*   **Технические сложности:** Возникали ошибки совместимости при запуске кода на Windows, что требовало доработки или корректировки со стороны пользователя.
*   **Проблемы логики:** В какой-то момент агент начал «гоняться за собственным хвостом» из-за цвета фруктов, совпадающего с цветом самого агента. Это классическая проблема в машинном обучении, связанная с некорректной функцией вознаграждения.
*   **Контекст:** При написании больших блоков кода модель может начать терять контекст, что требует от пользователя умения структурировать запросы.

По мнению Рот, опыт использования o3-mini напоминает работу с «высокооплачиваемым умным ассистентом». Иногда модель отказывается следовать буквальной инструкции, предлагая вместо этого более элегантное и технически верное решение.

Автор подчёркивает, что развитие подобных моделей больше не является инкрементальным улучшением, а выглядит как значительный шаг вперёд. o3-mini официально стала первой моделью, достигшей «среднего уровня риска» (medium risk) по шкале автономности OpenAI, так как её способности уже позволяют создавать инструменты для самообучения, что в перспективе может привести к созданию полностью автономных AI-исследователей.