Компания Anthropic представила новую модель Claude 3.5 Sonnet, которая, несмотря на позиционирование как модель среднего уровня, превзошла предыдущий флагман компании и главного конкурента в лице GPT-4o. Ведущий технологического канала Уэс Рот (Wes Roth) провел серию тестов, доказывающих, что возможности нейросетей в программировании и обработке визуальных данных вышли на новый уровень.
🚀 Новая планка в программировании: Claude 3.5 Sonnet против GPT-4o 0:00
Пока в индустрии велись споры о том, уперлись ли большие языковые модели (LLM) в «стену» своего развития, Anthropic выпустила Claude 3.5 Sonnet . Эта модель демонстрирует результат в 92% на бенчмарках по кодингу в режиме zero-shot (без предварительных примеров), что является значительным скачком по сравнению с Claude 3 Opus и небольшим, но важным улучшением над GPT-4o .
По мнению Уэса Рота, реальный опыт использования модели в программировании дает ощущение гораздо более масштабного прогресса, чем показывают сухие цифры графиков . Автор подчеркивает, что модель теперь способна:
- Создавать сложные проекты с нуля и итеративно добавлять в них функции .
- Автономно исправлять ошибки без потери предыдущего функционала.
- Удерживать контекст разработки, не забывая о деталях на поздних этапах проекта .
Уэс Рот считает, что Claude 3.5 Sonnet — лучший помощник для программирования на сегодняшний день из всех существующих моделей . Это мнение разделяют и инженеры Anthropic; так, Алекс Альберт утверждает, что модель «дает ощущение суперсилы», когда ни одна задача больше не кажется слишком амбициозной .
🎮 Практический тест: Создание игр без единой строчки кода 8:06
Для проверки возможностей модели Уэс Рот использовал новый интерфейс «Artifacts» — выделенное окно рядом с чатом, где Claude отображает код, документы и рабочие прототипы приложений . В ходе эксперимента автор не написал самостоятельно ни одной строки кода, полностью доверив разработку нейросети.
Шаги разработки игры Snake в стиле Dungeons & Dragons:
- Базовая логика: Модель мгновенно создала классическую игру «Змейка» на Python с использованием библиотеки Pygame .
- Генерация графики: Уэс Рот попросил заменить «еду» изображениями монстров из D&D (Beholder, Mind Flayer, Gelatinous Cube) . Claude сгенерировала 10 SVG-изображений монстров и интегрировала их в код.
- Интеграция ресурсов: Хотя возникла небольшая ошибка с именами файлов (модель добавила расширение .svg дважды), Claude исправила её по первому требованию, проанализировав сообщение об ошибке .
- Система прогрессии: Была добавлена система опыта (XP). Модель самостоятельно расставила ценность монстров: например, убийство Дракона дает 20 XP, а Гоблина — всего 1 XP .
- Сложная механика: По просьбе автора модель реализовала функцию «падающих объектов», которые при столкновении со змейкой отсекают часть её хвоста .
По словам Уэса Рота, его поразило то, что при добавлении новых сложных функций старые не ломались, а модель сохраняла идеальную логику взаимодействия всех систем . Также Claude 3.5 Sonnet смогла создать упрощенный 3D-шутер в стиле Doom прямо в окне браузера, что автор назвал «полным безумием» .
🛠️ Модификация сложных проектов с GitHub 21:07
Для проверки работы с «чужим» кодом Уэс Рот взял проект Alloy Voice Assistant (голосовой помощник с компьютерным зрением), созданный Сантьяго Вальдеррамой . Проект содержит более 170 строк кода и использует несколько API.
Процесс работы с Claude 3.5 Sonnet:
- Анализ: Модель быстро и точно описала структуру проекта, определив все используемые инструменты (OpenAI Whisper, Google Gemini, Text-to-Speech) .
- Документирование: По запросу Claude переписала код, добавив подробные комментарии к каждому блоку для облегчения понимания новичками .
- Изменение функционала: Уэс Рот приказал модели изменить источник видео. Вместо веб-камеры Claude заставила помощника делать скриншоты рабочего стола и анализировать происходящее на экране .
- Миграция на другой API: Модель успешно переписала проект с использования Gemini на собственный API Claude 3.5 Sonnet, подсказав нужные команды для установки библиотек (
pip install langchain-anthropic) .
Автор отмечает, что даже при возникновении ошибок из-за ограничений скорости API (rate limits), модель вела себя адекватно и помогала в диагностике .
👁️ Компьютерное зрение и «дисс» на конкурентов 31:58
В тестах на зрение Claude 3.5 Sonnet показала значительный прогресс. Модель уверенно распознает предметы через камеру: тюбик гигиенической помады, бутылку воды, строительный уровень и даже показания инфракрасного термометра .
Интересной деталью стала официальная демонстрация Anthropic. В одном из примеров студент просит Claude проанализировать слайды по геномике, и нейросеть обращается к нему: «Добрый вечер, Сэм». Уэс Рот предполагает, что это может быть своего рода «дисс» (выпад) в сторону Сэма Альтмана из OpenAI .
Результаты визуальных тестов:
- Математическое рассуждение: Модель лидирует среди конкурентов .
- Чтение графиков и диаграмм: Claude значительно превосходит GPT-4o, хотя Vision-модели всё еще могут ошибаться в деталях, таких как шкала спидометра или деления на линейке .
- Логические задачи: Модель успешно решает визуальные ребусы, например, разгадывает фразу «Too funny for words» или понимает игру слов в картинке «Downhill» .
💰 Экономика и безопасность 32:13
Anthropic предложила конкурентоспособную цену на новую модель. Claude 3.5 Sonnet стоит $3 за миллион входных токенов и $15 за миллион выходных токенов. Для сравнения: у GPT-4o стоимость входных токенов почти в два раза выше ($5), при идентичной цене на выход .
В плане безопасности модель соответствует уровню ASL-2 (AI Safety Level 2). Это означает, что она не несет рисков катастрофического злоупотребления (например, помощь в создании биологического оружия) и обладает низким уровнем автономных способностей . Ожидается, что более мощная модель Claude 3.5 Opus будет выпущена позже в этом году .
📉 Будущее профессии программиста 43:59
Уэс Рот выражает смешанные чувства относительно влияния таких моделей на рынок труда. С одной стороны, он видит в этом «суперсилу» для инженеров, позволяющую решать задачи беспрецедентной сложности за считанные минуты . С другой стороны, автор допускает пессимистичный сценарий для рабочих мест, так как порог входа в создание полезных ИТ-продуктов для людей без опыта программирования резко снижается .
Рот заключает, что Claude 3.5 Sonnet — это не просто инкрементальное обновление, а «ступенчатая функция», которая меняет представление о возможностях ИИ в середине 2024 года .