Выход новой модели Claude 3.5 Sonnet от компании Anthropic вызвал широкий резонанс в технологическом сообществе. Ведущий канала Wes Roth, Уэс Рот, провел детальный тест-драйв нейросети, проверяя её способности в программировании, компьютерном зрении и обработке сложных логических задач. По мнению автора, индустрия ИИ перешагнула важный порог, а новая модель демонстрирует результаты, которые заставляют пересмотреть сроки автоматизации разработки ПО .
🎮 Разработка игр «с нуля»: от Flappy Bird до 3D-шутеров 8:06
Уэс Рот начал тестирование с классических задач на создание кода, используя новую функцию Artifacts (интерактивное окно для предпросмотра кода и документов).
Основные этапы создания игр в Claude 3.5 Sonnet:
- Flappy Bird: Модель написала полный код игры с первой попытки. Уэс Рот отметил, что это «лучшая реализация Flappy Bird», которую он когда-либо видел у языковых моделей: игра работала плавно и без ошибок прямо в браузере .
- Snake (Змейка) с графикой Dungeons & Dragons:
- Сначала была создана базовая механика.
- Затем Рот попросил заменить «еду» на 10 случайных монстров из D&D (создав SVG-изображения для каждого: бехолдер, мимик, пожиратель разума и др.) .
- Исправление ошибок: При запуске возникла проблема с именованием файлов (модель добавила расширение
.svg.svg). После того как автор просто скопировал текст ошибки в чат, Claude 3.5 Sonnet исправила код с первого раза .
- Сложная логика и система очков:
- Добавление системы опыта (XP), где за сильных монстров (дракон) дается больше очков (20 XP), чем за слабых (гоблин — 1 XP) .
- Реализация механики роста: змейка удлиняется на количество блоков, равное полученному XP.
- Динамические препятствия: Добавление падающих сверху объектов, которые при столкновении «отрубают» часть хвоста змейки. Отрезанный кусок остается на экране несколько секунд, а затем исчезает .
- Doom-подобная игра: По запросу Рота модель создала упрощенный 3D-шутер (вид «из глаз») с картой в углу, возможностью ходить по лабиринту и атаковать монстров топором (клавиша Space) .
Уэс Рот подчеркнул, что Claude 3.5 Sonnet справляется с последовательным добавлением функций, не ломая предыдущий код и не «забывая» контекст, что является критическим улучшением по сравнению с предыдущими моделями .
🛠️ Работа со сложными GitHub-проектами и рефакторинг 20:54
Для проверки работы с «чужим» кодом автор взял проект «Alloy Voice Assistant» разработчика Сантьяго Вальдеррамы (Santiago Valderrama). Это продвинутый голосовой ассистент, использующий веб-камеру и API OpenAI/Gemini для ответов на вопросы о предметах в кадре .
Процесс модификации проекта:
- Анализ кода: Рот вставил 171 строку кода в Claude. Модель мгновенно распознала все используемые библиотеки (OpenAI Whisper, Gemini, PyAudio) и описала архитектуру проекта .
- Документирование: По запросу нейросеть переписала весь проект, добавив подробные комментарии к каждому блоку кода для облегчения понимания новичками .
-
Смена функционала (Webcam -> Screenshots): Самым сложным тестом была просьба переделать ассистента так, чтобы он анализировал не поток с веб-камеры, а скриншоты рабочего стола .
-
Для корректной работы потребовалась установка библиотеки Pillow:
pip install pillow. -
После модификации ассистент успешно «увидел» происходящее на экране, включая кадры из сериала «Сопрано» и геймплей игры Commander Keen 4 .
- Миграция на собственное API: Рот заставил скрипт использовать саму Claude 3.5 Sonnet вместо моделей конкурентов. Для этого потребовалась установка:
pip install langchain-anthropic.
-
👁️ Компьютерное зрение и логические задачи 33:06
Уэс Рот утверждает, что возможности Vision (зрения) в новой модели также совершили скачок, хотя и сохраняют некоторые ограничения.
Результаты тестов на зрение:
- Распознавание объектов: Модель безошибочно определила в руках автора гигиеническую помаду, инфракрасный термометр, строительный уровень, детектор проводки (stud finder) и маркер Sharpie .
- Ребусы и визуальные загадки: Claude 3.5 Sonnet успешно решила сложные визуальные головоломки (например, фразу «Too funny for words», где слово funny написано дважды, а words — четыре раза) .
- Слабые места: По словам Рота, как и GPT-4o, модель всё еще плохо справляется с точным считыванием показаний спидометров или линеек, где требуется прецизионное отслеживание линий и делений .
📊 Сравнение характеристик и экономика модели 31:58
Согласно официальным данным Anthropic, Claude 3.5 Sonnet превосходит предыдущую флагманскую модель Claude 3 Opus по большинству тестов, работая при этом в два раза быстрее .
Сравнение цен (за 1 млн токенов):
- Claude 3.5 Sonnet: Вход — $3, Выход — $15.
- GPT-4o: Вход — $5 (почти в два раза дороже), Выход — $15 .
- Контекстное окно: 200 000 токенов для обеих моделей.
Уэс Рот отмечает, что Claude теперь лидирует в 4 из 5 ключевых бенчмарков, особенно в визуальном математическом мышлении и анализе графиков .
📈 Будущее индустрии и «суперспособности» разработчиков 41:06
Уэс Рот процитировал Алекса Альберта из Anthropic, который утверждает, что Claude 3.5 Sonnet уже меняет графики работ лучших инженеров. Один из разработчиков компании (анонимно) признался, что если раньше Opus мог лишь «подсказать путь», то новая модель «проходит всю дистанцию до конца», исправляя сложные баги в open-source библиотеках .
Мнения и выводы Уэса Рота:
- Автор считает, что это самое захватывающее обновление со времен выхода GPT-4 .
- По его мнению, ощущение от использования модели — это не «инкрементальное улучшение» на несколько процентов, а качественный скачок (step function) .
- Рот выразил оптимизм по поводу того, что это даст «суперсилы» инженерам, но также признал риск для рабочих мест в будущем, так как порог входа в создание работающего ПО для людей без опыта программирования резко снизился .
В ближайшие 6 месяцев Anthropic планирует выпустить модели Haiku 3.5 и Opus 3.5, что, по мнению Рота, окончательно опровергает теорию о том, что развитие больших языковых моделей «уперлось в стену» .