# Уэс Рот: «Claude 3.5 Sonnet — это Monumental-скачок в программировании»

Источник: https://www.youtube.com/watch?v=_mkyL0Ww_08
Канал: Wes Roth
Опубликовано: 21.06.2024

---

Компания Anthropic представила новую модель Claude 3.5 Sonnet, которая, несмотря на позиционирование как модель среднего уровня, превзошла предыдущий флагман компании и главного конкурента в лице GPT-4o. Ведущий технологического канала Уэс Рот (Wes Roth) провел серию тестов, доказывающих, что возможности нейросетей в программировании и обработке визуальных данных вышли на новый уровень.

## 🚀 Новая планка в программировании: Claude 3.5 Sonnet против GPT-4o
[[JUMP:0:00]]

Пока в индустрии велись споры о том, уперлись ли большие языковые модели (LLM) в «стену» своего развития, Anthropic выпустила Claude 3.5 Sonnet [0:13]. Эта модель демонстрирует результат в 92% на бенчмарках по кодингу в режиме zero-shot (без предварительных примеров), что является значительным скачком по сравнению с Claude 3 Opus и небольшим, но важным улучшением над GPT-4o [3:15]. 

По мнению Уэса Рота, реальный опыт использования модели в программировании дает ощущение гораздо более масштабного прогресса, чем показывают сухие цифры графиков [3:28]. Автор подчеркивает, что модель теперь способна:

*   Создавать сложные проекты с нуля и итеративно добавлять в них функции [4:45].
*   Автономно исправлять ошибки без потери предыдущего функционала.
*   Удерживать контекст разработки, не забывая о деталях на поздних этапах проекта [4:58].

Уэс Рот считает, что Claude 3.5 Sonnet — лучший помощник для программирования на сегодняшний день из всех существующих моделей [5:11]. Это мнение разделяют и инженеры Anthropic; так, Алекс Альберт утверждает, что модель «дает ощущение суперсилы», когда ни одна задача больше не кажется слишком амбициозной [2:49].

## 🎮 Практический тест: Создание игр без единой строчки кода
[[JUMP:8:06]]

Для проверки возможностей модели Уэс Рот использовал новый интерфейс «Artifacts» — выделенное окно рядом с чатом, где Claude отображает код, документы и рабочие прототипы приложений [8:06]. В ходе эксперимента автор не написал самостоятельно ни одной строки кода, полностью доверив разработку нейросети.

**Шаги разработки игры Snake в стиле Dungeons & Dragons:**

1.  **Базовая логика:** Модель мгновенно создала классическую игру «Змейка» на Python с использованием библиотеки Pygame [8:45].
2.  **Генерация графики:** Уэс Рот попросил заменить «еду» изображениями монстров из D&D (Beholder, Mind Flayer, Gelatinous Cube) [9:12]. Claude сгенерировала 10 SVG-изображений монстров и интегрировала их в код.
3.  **Интеграция ресурсов:** Хотя возникла небольшая ошибка с именами файлов (модель добавила расширение .svg дважды), Claude исправила её по первому требованию, проанализировав сообщение об ошибке [13:08].
4.  **Система прогрессии:** Была добавлена система опыта (XP). Модель самостоятельно расставила ценность монстров: например, убийство Дракона дает 20 XP, а Гоблина — всего 1 XP [15:31].
5.  **Сложная механика:** По просьбе автора модель реализовала функцию «падающих объектов», которые при столкновении со змейкой отсекают часть её хвоста [17:27].

По словам Уэса Рота, его поразило то, что при добавлении новых сложных функций старые не ломались, а модель сохраняла идеальную логику взаимодействия всех систем [19:24]. Также Claude 3.5 Sonnet смогла создать упрощенный 3D-шутер в стиле Doom прямо в окне браузера, что автор назвал «полным безумием» [29:45].

## 🛠️ Модификация сложных проектов с GitHub
[[JUMP:21:07]]

Для проверки работы с «чужим» кодом Уэс Рот взял проект Alloy Voice Assistant (голосовой помощник с компьютерным зрением), созданный Сантьяго Вальдеррамой [21:07]. Проект содержит более 170 строк кода и использует несколько API.

**Процесс работы с Claude 3.5 Sonnet:**

1.  **Анализ:** Модель быстро и точно описала структуру проекта, определив все используемые инструменты (OpenAI Whisper, Google Gemini, Text-to-Speech) [23:26].
2.  **Документирование:** По запросу Claude переписала код, добавив подробные комментарии к каждому блоку для облегчения понимания новичками [24:32].
3.  **Изменение функционала:** Уэс Рот приказал модели изменить источник видео. Вместо веб-камеры Claude заставила помощника делать скриншоты рабочего стола и анализировать происходящее на экране [26:03].
4.  **Миграция на другой API:** Модель успешно переписала проект с использования Gemini на собственный API Claude 3.5 Sonnet, подсказав нужные команды для установки библиотек (`pip install langchain-anthropic`) [28:14].

Автор отмечает, что даже при возникновении ошибок из-за ограничений скорости API (rate limits), модель вела себя адекватно и помогала в диагностике [28:54].

## 👁️ Компьютерное зрение и «дисс» на конкурентов
[[JUMP:31:58]]

В тестах на зрение Claude 3.5 Sonnet показала значительный прогресс. Модель уверенно распознает предметы через камеру: тюбик гигиенической помады, бутылку воды, строительный уровень и даже показания инфракрасного термометра [29:18]. 

Интересной деталью стала официальная демонстрация Anthropic. В одном из примеров студент просит Claude проанализировать слайды по геномике, и нейросеть обращается к нему: «Добрый вечер, Сэм». Уэс Рот предполагает, что это может быть своего рода «дисс» (выпад) в сторону Сэма Альтмана из OpenAI [33:20].

**Результаты визуальных тестов:**

*   **Математическое рассуждение:** Модель лидирует среди конкурентов [35:43].
*   **Чтение графиков и диаграмм:** Claude значительно превосходит GPT-4o, хотя Vision-модели всё еще могут ошибаться в деталях, таких как шкала спидометра или деления на линейке [35:57].
*   **Логические задачи:** Модель успешно решает визуальные ребусы, например, разгадывает фразу «Too funny for words» или понимает игру слов в картинке «Downhill» [39:49].

## 💰 Экономика и безопасность
[[JUMP:32:13]]

Anthropic предложила конкурентоспособную цену на новую модель. Claude 3.5 Sonnet стоит $3 за миллион входных токенов и $15 за миллион выходных токенов. Для сравнения: у GPT-4o стоимость входных токенов почти в два раза выше ($5), при идентичной цене на выход [32:40].

В плане безопасности модель соответствует уровню ASL-2 (AI Safety Level 2). Это означает, что она не несет рисков катастрофического злоупотребления (например, помощь в создании биологического оружия) и обладает низким уровнем автономных способностей [37:52]. Ожидается, что более мощная модель Claude 3.5 Opus будет выпущена позже в этом году [38:19].

## 📉 Будущее профессии программиста
[[JUMP:43:59]]

Уэс Рот выражает смешанные чувства относительно влияния таких моделей на рынок труда. С одной стороны, он видит в этом «суперсилу» для инженеров, позволяющую решать задачи беспрецедентной сложности за считанные минуты [43:59]. С другой стороны, автор допускает пессимистичный сценарий для рабочих мест, так как порог входа в создание полезных ИТ-продуктов для людей без опыта программирования резко снижается [45:18].

Рот заключает, что Claude 3.5 Sonnet — это не просто инкрементальное обновление, а «ступенчатая функция», которая меняет представление о возможностях ИИ в середине 2024 года [44:38].