Уэс Рот: «Claude 3.5 Sonnet — это Monumental-скачок в программировании»

Компания Anthropic представила новую модель Claude 3.5 Sonnet, которая, несмотря на позиционирование как модель среднего уровня, превзошла предыдущий флагман компании и главного конкурента в лице GPT-4o. Ведущий технологического канала Уэс Рот (Wes Roth) провел серию тестов, доказывающих, что возможности нейросетей в программировании и обработке визуальных данных вышли на новый уровень.

🚀 Новая планка в программировании: Claude 3.5 Sonnet против GPT-4o 0:00

Пока в индустрии велись споры о том, уперлись ли большие языковые модели (LLM) в «стену» своего развития, Anthropic выпустила Claude 3.5 Sonnet . Эта модель демонстрирует результат в 92% на бенчмарках по кодингу в режиме zero-shot (без предварительных примеров), что является значительным скачком по сравнению с Claude 3 Opus и небольшим, но важным улучшением над GPT-4o .

По мнению Уэса Рота, реальный опыт использования модели в программировании дает ощущение гораздо более масштабного прогресса, чем показывают сухие цифры графиков . Автор подчеркивает, что модель теперь способна:

Создавать сложные проекты с нуля и итеративно добавлять в них функции .
Автономно исправлять ошибки без потери предыдущего функционала.
Удерживать контекст разработки, не забывая о деталях на поздних этапах проекта .

Уэс Рот считает, что Claude 3.5 Sonnet — лучший помощник для программирования на сегодняшний день из всех существующих моделей . Это мнение разделяют и инженеры Anthropic; так, Алекс Альберт утверждает, что модель «дает ощущение суперсилы», когда ни одна задача больше не кажется слишком амбициозной .

🎮 Практический тест: Создание игр без единой строчки кода 8:06

Для проверки возможностей модели Уэс Рот использовал новый интерфейс «Artifacts» — выделенное окно рядом с чатом, где Claude отображает код, документы и рабочие прототипы приложений . В ходе эксперимента автор не написал самостоятельно ни одной строки кода, полностью доверив разработку нейросети.

Шаги разработки игры Snake в стиле Dungeons & Dragons:

Базовая логика: Модель мгновенно создала классическую игру «Змейка» на Python с использованием библиотеки Pygame .
Генерация графики: Уэс Рот попросил заменить «еду» изображениями монстров из D&D (Beholder, Mind Flayer, Gelatinous Cube) . Claude сгенерировала 10 SVG-изображений монстров и интегрировала их в код.
Интеграция ресурсов: Хотя возникла небольшая ошибка с именами файлов (модель добавила расширение .svg дважды), Claude исправила её по первому требованию, проанализировав сообщение об ошибке .
Система прогрессии: Была добавлена система опыта (XP). Модель самостоятельно расставила ценность монстров: например, убийство Дракона дает 20 XP, а Гоблина — всего 1 XP .
Сложная механика: По просьбе автора модель реализовала функцию «падающих объектов», которые при столкновении со змейкой отсекают часть её хвоста .

По словам Уэса Рота, его поразило то, что при добавлении новых сложных функций старые не ломались, а модель сохраняла идеальную логику взаимодействия всех систем . Также Claude 3.5 Sonnet смогла создать упрощенный 3D-шутер в стиле Doom прямо в окне браузера, что автор назвал «полным безумием» .

🛠️ Модификация сложных проектов с GitHub 21:07

Для проверки работы с «чужим» кодом Уэс Рот взял проект Alloy Voice Assistant (голосовой помощник с компьютерным зрением), созданный Сантьяго Вальдеррамой . Проект содержит более 170 строк кода и использует несколько API.

Процесс работы с Claude 3.5 Sonnet:

Анализ: Модель быстро и точно описала структуру проекта, определив все используемые инструменты (OpenAI Whisper, Google Gemini, Text-to-Speech) .
Документирование: По запросу Claude переписала код, добавив подробные комментарии к каждому блоку для облегчения понимания новичками .
Изменение функционала: Уэс Рот приказал модели изменить источник видео. Вместо веб-камеры Claude заставила помощника делать скриншоты рабочего стола и анализировать происходящее на экране .
Миграция на другой API: Модель успешно переписала проект с использования Gemini на собственный API Claude 3.5 Sonnet, подсказав нужные команды для установки библиотек (pip install langchain-anthropic) .

Автор отмечает, что даже при возникновении ошибок из-за ограничений скорости API (rate limits), модель вела себя адекватно и помогала в диагностике .

👁️ Компьютерное зрение и «дисс» на конкурентов 31:58

В тестах на зрение Claude 3.5 Sonnet показала значительный прогресс. Модель уверенно распознает предметы через камеру: тюбик гигиенической помады, бутылку воды, строительный уровень и даже показания инфракрасного термометра .

Интересной деталью стала официальная демонстрация Anthropic. В одном из примеров студент просит Claude проанализировать слайды по геномике, и нейросеть обращается к нему: «Добрый вечер, Сэм». Уэс Рот предполагает, что это может быть своего рода «дисс» (выпад) в сторону Сэма Альтмана из OpenAI .

Результаты визуальных тестов:

Математическое рассуждение: Модель лидирует среди конкурентов .
Чтение графиков и диаграмм: Claude значительно превосходит GPT-4o, хотя Vision-модели всё еще могут ошибаться в деталях, таких как шкала спидометра или деления на линейке .
Логические задачи: Модель успешно решает визуальные ребусы, например, разгадывает фразу «Too funny for words» или понимает игру слов в картинке «Downhill» .

💰 Экономика и безопасность 32:13

Anthropic предложила конкурентоспособную цену на новую модель. Claude 3.5 Sonnet стоит $3 за миллион входных токенов и $15 за миллион выходных токенов. Для сравнения: у GPT-4o стоимость входных токенов почти в два раза выше ($5), при идентичной цене на выход .

В плане безопасности модель соответствует уровню ASL-2 (AI Safety Level 2). Это означает, что она не несет рисков катастрофического злоупотребления (например, помощь в создании биологического оружия) и обладает низким уровнем автономных способностей . Ожидается, что более мощная модель Claude 3.5 Opus будет выпущена позже в этом году .

📉 Будущее профессии программиста 43:59

Уэс Рот выражает смешанные чувства относительно влияния таких моделей на рынок труда. С одной стороны, он видит в этом «суперсилу» для инженеров, позволяющую решать задачи беспрецедентной сложности за считанные минуты . С другой стороны, автор допускает пессимистичный сценарий для рабочих мест, так как порог входа в создание полезных ИТ-продуктов для людей без опыта программирования резко снижается .

Рот заключает, что Claude 3.5 Sonnet — это не просто инкрементальное обновление, а «ступенчатая функция», которая меняет представление о возможностях ИИ в середине 2024 года .