o3-mini: тест новой модели с навыками автономного машинного обучения

Wes Roth 495 тыс. 32 мин 2 мин 01.02.2025
Главное

Новая эра автономности: почему o3-mini меняет правила игры 0:00

Вес Рот протестировал свежую модель o3-mini (версию o3-mini High), чтобы оценить её возможности в написании кода и машинном обучении. В ходе эксперимента модель не только создала работающую игру «Змейка», но и самостоятельно разработала систему машинного обучения, способную тренироваться и совершенствовать свои навыки в этой игре. По мнению Рот, это демонстрирует качественный скачок в развитии AI-агентов, которые переходят от простого написания кода к решению комплексных задач по самообучению.

🐍 Игровая разработка и первые шаги 2:21

В ходе тестирования Вес Рот попросил модель написать код для игры «Змейка» на Python, а затем постепенно усложнять задачу. Модель справилась с базовым функционалом практически мгновенно.

Основные этапы усложнения:

По словам автора, модель успешно адаптировала код для обхода препятствий, что ранее было недоступно предыдущим итерациям AI.

🧠 Создание самообучающегося AI-агента 7:11

Следующей задачей стало обучение агента играть в созданную «Змейку» с использованием методов обучения с подкреплением (reinforcement learning). Модель предложила использовать библиотеку PyTorch, разработанную Meta, для создания нейросети.

Процесс обучения строился на следующих принципах:

  1. Среда: Определение пространства действий (движение влево, вправо, прямо).
  2. Функция вознаграждения: Положительные баллы за поедание фруктов, отрицательные — за столкновения со стенами или ловушками.
  3. Итерации: Агент прошел через 500 эпизодов, постепенно улучшая свои результаты.

Автор отмечает, что поначалу агент демонстрировал низкие показатели, совершая случайные действия, но к 500-му эпизоду количество положительных результатов значительно возросло, подтверждая способность системы обучаться на основе заданных правил.

⚖️ Экспертный анализ и ограничения 17:53

Несмотря на впечатляющие результаты, Вес Рот столкнулся с рядом нюансов, требующих вмешательства человека.

По мнению Рот, опыт использования o3-mini напоминает работу с «высокооплачиваемым умным ассистентом». Иногда модель отказывается следовать буквальной инструкции, предлагая вместо этого более элегантное и технически верное решение.

Автор подчёркивает, что развитие подобных моделей больше не является инкрементальным улучшением, а выглядит как значительный шаг вперёд. o3-mini официально стала первой моделью, достигшей «среднего уровня риска» (medium risk) по шкале автономности OpenAI, так как её способности уже позволяют создавать инструменты для самообучения, что в перспективе может привести к созданию полностью автономных AI-исследователей.

💬 Цитаты

«Это не революция... но это большой шаг вперёд.»

«В конечном итоге эти вещи будут ощущаться как очень умный, высокооплачиваемый ассистент.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement learning
Метод машинного обучения, при котором агент учится принимать решения, получая вознаграждения или штрафы за свои действия.
DQ-сеть (Deep Q-Network)
Алгоритм обучения с подкреплением, использующий нейронные сети для оценки стратегии действий.
Автономность модели
Способность системы самостоятельно выполнять сложные исследовательские и технические задачи без постоянного руководства человека.
📊 Цифры
🗓 Хронология
  1. 2026 Выход и тестирование модели o3-mini.
  2. 5 лет назад Сложность входа в разработку ML была значительно выше из-за отсутствия таких инструментов.
⚖️ Другая сторона
Искусственный интеллект o3-mini PyTorch Machine Learning OpenAI