Уэс Рот: «Claude 3.5 Sonnet дает программистам настоящие суперсилы»

Wes Roth 110 тыс. 45 мин 4 мин 21.06.2024
Главное

Выход новой модели Claude 3.5 Sonnet от компании Anthropic вызвал широкий резонанс в технологическом сообществе. Ведущий канала Wes Roth, Уэс Рот, провел детальный тест-драйв нейросети, проверяя её способности в программировании, компьютерном зрении и обработке сложных логических задач. По мнению автора, индустрия ИИ перешагнула важный порог, а новая модель демонстрирует результаты, которые заставляют пересмотреть сроки автоматизации разработки ПО .

🎮 Разработка игр «с нуля»: от Flappy Bird до 3D-шутеров 8:06

Уэс Рот начал тестирование с классических задач на создание кода, используя новую функцию Artifacts (интерактивное окно для предпросмотра кода и документов).

Основные этапы создания игр в Claude 3.5 Sonnet:

  1. Flappy Bird: Модель написала полный код игры с первой попытки. Уэс Рот отметил, что это «лучшая реализация Flappy Bird», которую он когда-либо видел у языковых моделей: игра работала плавно и без ошибок прямо в браузере .
  2. Snake (Змейка) с графикой Dungeons & Dragons:
    • Сначала была создана базовая механика.
    • Затем Рот попросил заменить «еду» на 10 случайных монстров из D&D (создав SVG-изображения для каждого: бехолдер, мимик, пожиратель разума и др.) .
    • Исправление ошибок: При запуске возникла проблема с именованием файлов (модель добавила расширение .svg.svg). После того как автор просто скопировал текст ошибки в чат, Claude 3.5 Sonnet исправила код с первого раза .
  3. Сложная логика и система очков:
    • Добавление системы опыта (XP), где за сильных монстров (дракон) дается больше очков (20 XP), чем за слабых (гоблин — 1 XP) .
    • Реализация механики роста: змейка удлиняется на количество блоков, равное полученному XP.
    • Динамические препятствия: Добавление падающих сверху объектов, которые при столкновении «отрубают» часть хвоста змейки. Отрезанный кусок остается на экране несколько секунд, а затем исчезает .
  4. Doom-подобная игра: По запросу Рота модель создала упрощенный 3D-шутер (вид «из глаз») с картой в углу, возможностью ходить по лабиринту и атаковать монстров топором (клавиша Space) .

Уэс Рот подчеркнул, что Claude 3.5 Sonnet справляется с последовательным добавлением функций, не ломая предыдущий код и не «забывая» контекст, что является критическим улучшением по сравнению с предыдущими моделями .

🛠️ Работа со сложными GitHub-проектами и рефакторинг 20:54

Для проверки работы с «чужим» кодом автор взял проект «Alloy Voice Assistant» разработчика Сантьяго Вальдеррамы (Santiago Valderrama). Это продвинутый голосовой ассистент, использующий веб-камеру и API OpenAI/Gemini для ответов на вопросы о предметах в кадре .

Процесс модификации проекта:

👁️ Компьютерное зрение и логические задачи 33:06

Уэс Рот утверждает, что возможности Vision (зрения) в новой модели также совершили скачок, хотя и сохраняют некоторые ограничения.

Результаты тестов на зрение:

📊 Сравнение характеристик и экономика модели 31:58

Согласно официальным данным Anthropic, Claude 3.5 Sonnet превосходит предыдущую флагманскую модель Claude 3 Opus по большинству тестов, работая при этом в два раза быстрее .

Сравнение цен (за 1 млн токенов):

Уэс Рот отмечает, что Claude теперь лидирует в 4 из 5 ключевых бенчмарков, особенно в визуальном математическом мышлении и анализе графиков .

📈 Будущее индустрии и «суперспособности» разработчиков 41:06

Уэс Рот процитировал Алекса Альберта из Anthropic, который утверждает, что Claude 3.5 Sonnet уже меняет графики работ лучших инженеров. Один из разработчиков компании (анонимно) признался, что если раньше Opus мог лишь «подсказать путь», то новая модель «проходит всю дистанцию до конца», исправляя сложные баги в open-source библиотеках .

Мнения и выводы Уэса Рота:

В ближайшие 6 месяцев Anthropic планирует выпустить модели Haiku 3.5 и Opus 3.5, что, по мнению Рота, окончательно опровергает теорию о том, что развитие больших языковых моделей «уперлось в стену» .

💬 Цитаты

«Claude заставляет тебя чувствовать, что у тебя есть суперсилы. Внезапно никакая проблема не кажется слишком амбициозной.»

Уэс Рот (цитируя инженера Anthropic) 43:59

«Это первый раз, когда модель прошла всю дистанцию до конца, не галлюцинируя и не совершая предсказуемых ошибок при росте сложности.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Artifacts
Новая функция в интерфейсе Claude для отображения и редактирования кода, документов и графики в отдельном окне.
Zero-shot
Способность модели выполнять задачу без предварительных примеров в запросе.
ASL-2 (AI Safety Level 2)
Уровень безопасности ИИ, к которому Anthropic относит текущие модели (низкий риск катастрофического использования).
📊 Цифры
🗓 Хронология
  1. 20 июня 2024 Релиз модели Claude 3.5 Sonnet (согласно контексту видео).
  2. Март 2024 Выход предыдущей линейки моделей Claude 3 (Haiku, Sonnet, Opus).
  3. Конец 2024 Ожидаемый выпуск моделей Claude 3.5 Haiku и Claude 3.5 Opus.
⚖️ Другая сторона
Искусственный интеллект Claude 3.5 Sonnet Anthropic Уэс Рот Claude Artifacts программирование