Уэс Рот: «Claude 3.5 Sonnet — это Monumental-скачок в программировании»

Wes Roth 110 тыс. 45 мин 5 мин 21.06.2024
Главное

Компания Anthropic представила новую модель Claude 3.5 Sonnet, которая, несмотря на позиционирование как модель среднего уровня, превзошла предыдущий флагман компании и главного конкурента в лице GPT-4o. Ведущий технологического канала Уэс Рот (Wes Roth) провел серию тестов, доказывающих, что возможности нейросетей в программировании и обработке визуальных данных вышли на новый уровень.

🚀 Новая планка в программировании: Claude 3.5 Sonnet против GPT-4o 0:00

Пока в индустрии велись споры о том, уперлись ли большие языковые модели (LLM) в «стену» своего развития, Anthropic выпустила Claude 3.5 Sonnet . Эта модель демонстрирует результат в 92% на бенчмарках по кодингу в режиме zero-shot (без предварительных примеров), что является значительным скачком по сравнению с Claude 3 Opus и небольшим, но важным улучшением над GPT-4o .

По мнению Уэса Рота, реальный опыт использования модели в программировании дает ощущение гораздо более масштабного прогресса, чем показывают сухие цифры графиков . Автор подчеркивает, что модель теперь способна:

Уэс Рот считает, что Claude 3.5 Sonnet — лучший помощник для программирования на сегодняшний день из всех существующих моделей . Это мнение разделяют и инженеры Anthropic; так, Алекс Альберт утверждает, что модель «дает ощущение суперсилы», когда ни одна задача больше не кажется слишком амбициозной .

🎮 Практический тест: Создание игр без единой строчки кода 8:06

Для проверки возможностей модели Уэс Рот использовал новый интерфейс «Artifacts» — выделенное окно рядом с чатом, где Claude отображает код, документы и рабочие прототипы приложений . В ходе эксперимента автор не написал самостоятельно ни одной строки кода, полностью доверив разработку нейросети.

Шаги разработки игры Snake в стиле Dungeons & Dragons:

  1. Базовая логика: Модель мгновенно создала классическую игру «Змейка» на Python с использованием библиотеки Pygame .
  2. Генерация графики: Уэс Рот попросил заменить «еду» изображениями монстров из D&D (Beholder, Mind Flayer, Gelatinous Cube) . Claude сгенерировала 10 SVG-изображений монстров и интегрировала их в код.
  3. Интеграция ресурсов: Хотя возникла небольшая ошибка с именами файлов (модель добавила расширение .svg дважды), Claude исправила её по первому требованию, проанализировав сообщение об ошибке .
  4. Система прогрессии: Была добавлена система опыта (XP). Модель самостоятельно расставила ценность монстров: например, убийство Дракона дает 20 XP, а Гоблина — всего 1 XP .
  5. Сложная механика: По просьбе автора модель реализовала функцию «падающих объектов», которые при столкновении со змейкой отсекают часть её хвоста .

По словам Уэса Рота, его поразило то, что при добавлении новых сложных функций старые не ломались, а модель сохраняла идеальную логику взаимодействия всех систем . Также Claude 3.5 Sonnet смогла создать упрощенный 3D-шутер в стиле Doom прямо в окне браузера, что автор назвал «полным безумием» .

🛠️ Модификация сложных проектов с GitHub 21:07

Для проверки работы с «чужим» кодом Уэс Рот взял проект Alloy Voice Assistant (голосовой помощник с компьютерным зрением), созданный Сантьяго Вальдеррамой . Проект содержит более 170 строк кода и использует несколько API.

Процесс работы с Claude 3.5 Sonnet:

  1. Анализ: Модель быстро и точно описала структуру проекта, определив все используемые инструменты (OpenAI Whisper, Google Gemini, Text-to-Speech) .
  2. Документирование: По запросу Claude переписала код, добавив подробные комментарии к каждому блоку для облегчения понимания новичками .
  3. Изменение функционала: Уэс Рот приказал модели изменить источник видео. Вместо веб-камеры Claude заставила помощника делать скриншоты рабочего стола и анализировать происходящее на экране .
  4. Миграция на другой API: Модель успешно переписала проект с использования Gemini на собственный API Claude 3.5 Sonnet, подсказав нужные команды для установки библиотек (pip install langchain-anthropic) .

Автор отмечает, что даже при возникновении ошибок из-за ограничений скорости API (rate limits), модель вела себя адекватно и помогала в диагностике .

👁️ Компьютерное зрение и «дисс» на конкурентов 31:58

В тестах на зрение Claude 3.5 Sonnet показала значительный прогресс. Модель уверенно распознает предметы через камеру: тюбик гигиенической помады, бутылку воды, строительный уровень и даже показания инфракрасного термометра .

Интересной деталью стала официальная демонстрация Anthropic. В одном из примеров студент просит Claude проанализировать слайды по геномике, и нейросеть обращается к нему: «Добрый вечер, Сэм». Уэс Рот предполагает, что это может быть своего рода «дисс» (выпад) в сторону Сэма Альтмана из OpenAI .

Результаты визуальных тестов:

💰 Экономика и безопасность 32:13

Anthropic предложила конкурентоспособную цену на новую модель. Claude 3.5 Sonnet стоит $3 за миллион входных токенов и $15 за миллион выходных токенов. Для сравнения: у GPT-4o стоимость входных токенов почти в два раза выше ($5), при идентичной цене на выход .

В плане безопасности модель соответствует уровню ASL-2 (AI Safety Level 2). Это означает, что она не несет рисков катастрофического злоупотребления (например, помощь в создании биологического оружия) и обладает низким уровнем автономных способностей . Ожидается, что более мощная модель Claude 3.5 Opus будет выпущена позже в этом году .

📉 Будущее профессии программиста 43:59

Уэс Рот выражает смешанные чувства относительно влияния таких моделей на рынок труда. С одной стороны, он видит в этом «суперсилу» для инженеров, позволяющую решать задачи беспрецедентной сложности за считанные минуты . С другой стороны, автор допускает пессимистичный сценарий для рабочих мест, так как порог входа в создание полезных ИТ-продуктов для людей без опыта программирования резко снижается .

Рот заключает, что Claude 3.5 Sonnet — это не просто инкрементальное обновление, а «ступенчатая функция», которая меняет представление о возможностях ИИ в середине 2024 года .

💬 Цитаты

«Claude дает вам ощущение суперсилы: внезапно ни одна проблема не кажется слишком амбициозной. Будущее программирования уже здесь.»

Уэс Рот (цитируя инженера Anthropic) 43:59

«Этот скачок ощущается гораздо больше, чем показывают цифры бенчмарков.»

«Модель идет до конца. Нет никакого «обрыва», когда при достижении сложности она просто ломается.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Artifacts
Интерфейсное решение в Claude для отображения и редактирования кода, документов и сайтов в отдельном окне.
Zero-shot
Способность модели решать задачу без предварительных примеров или специального обучения под конкретный запрос.
ASL-2
Уровень безопасности ИИ, означающий отсутствие рисков катастрофического вреда при текущих возможностях модели.
Context Window
Объем данных (текста), который модель может удерживать в оперативной памяти одновременно; у Claude 3.5 это 200 000 токенов.
📊 Цифры
🗓 Хронология
  1. 29 февраля 2024 Выход предыдущей линейки моделей Claude 3.
  2. Июнь 2024 Релиз Claude 3.5 Sonnet.
  3. Вторая половина 2024 Ожидаемый выпуск моделей Claude 3.5 Haiku и Claude 3.5 Opus.
⚖️ Другая сторона
Искусственный интеллект Anthropic Claude 3.5 Sonnet Уэс Рот GPT-4o Программирование