# Grok 2 Large против лидеров рынка: разбор Уэса Рота о возможностях и цензуре ИИ от xAI

Источник: https://www.youtube.com/watch?v=o1iZ4QOveLk
Канал: Wes Roth
Опубликовано: 24.08.2024

---

Новая нейросеть от Илона Маска, Grok 2, стремительно ворвалась в топ мировых рейтингов, заняв второе место в Chatbot Arena и вплотную приблизившись к лидерам от OpenAI и Google. В своём новом видео техноблогер Уэс Рот (Wes Roth) проводит детальный тест-драйв модели, проверяя её логику, навыки программирования и готовность отвечать на «запретные» вопросы. Главная интрига заключается в том, действительно ли xAI удалось создать мощный ИИ без жесткой цензуры и идеологических ограничений.

## 🏆 Прорыв в рейтингах и техническое ускорение
[[JUMP:0:00]]

Grok 2 Large показал впечатляющие результаты сразу после выхода, заняв вторую строчку в глобальном лидерборде Chatbot Arena [0:00]. Его «младший брат», Grok 2 Mini, также вошел в пятерку лучших, заняв почетное пятое место. По словам ведущего разработчика команды xAI Игоря Бабушкина, Grok Mini стал в два раза быстрее всего за один день благодаря оптимизации [0:26]. 

Технический прогресс модели обусловлен серьезной переработкой инфраструктуры. Алам Джанг и Малики С. полностью переписали стек инференса (inference stack), используя SG Lang [0:39]. Это позволило запускать большую модель Grok 2, требующую работы на нескольких хостах (multihost inference), с приемлемой скоростью [0:51]. Как утверждает Уэс Рот, команда xAI движется «очень, очень быстро», стремясь сократить отставание от конкурентов.

## 🧩 Тесты на логику и пространственное мышление
[[JUMP:1:05]]

Уэс Рот подверг Grok 2 серии испытаний, чтобы проверить, насколько хорошо модель понимает контекст и сложные условия задач.

**Пространственная ориентация** [1:17]:

*   На вопрос о том, где находится Бостон (слева или справа), если стоять в Южной Дакоте и смотреть на Техас, Grok 2 ответил верно. 
*   Модель не просто угадала, а расписала логику: Южная Дакота — на севере, Техас — на юге, Бостон — на востоке. Следовательно, при взгляде на юг Бостон окажется слева [1:43].

**Классическая задача о загадочном убийстве** [2:40]:

*   В задаче про тетушку Агату и трех жителей поместья Grok 2 начал рассуждать правильно, анализируя отношения между персонажами через пронумерованные предпосылки [3:54].
*   Однако модель допустила логическую ошибку, исключив возможность самоубийства, аргументируя это тем, что в формулировке «кто-то убил Агату» подразумевается внешний агент [6:17]. 
*   Уэс Рот отмечает, что модель «споткнулась» на ложном следе, хотя была очень близка к верному ответу [7:27].

**Задача выбора Уэйсона (Wason selection problem)** [7:40]:

*   Этот тест проверяет когнитивные искажения и способность к фальсификации гипотез. Grok 2 правильно определил, что нужно пытаться опровергнуть утверждение, а не подтвердить его [9:51].
*   Тем не менее, в итоговом ответе модель допустила ошибку, предложив перевернуть лишние карточки. По наблюдениям Рота, GPT-4 (версия Legacy) справилась с этой задачей идеально, в то время как GPT-4o также потерпела неудачу [10:44].

**Задача с расстановкой мебели на сетке 3x3** [11:11]:

*   С этим сложным заданием, требующим визуализации пространства и соблюдения пяти условий (например, «D выше всех остальных»), Grok 2 не справился [14:54].
*   Модель не смогла удержать в памяти все ограничения одновременно, даже после подсказок. Рот подчеркивает, что на данный момент ни одна крупная языковая модель не решает эту задачу корректно без специальных техник промптинга [16:13].

## 💻 Программирование: скорость против качества
[[JUMP:17:20]]

В тесте на написание кода Уэс Рот попросил Grok 2 создать игру «Змейка» на Python с использованием библиотеки PyGame.

Результаты итеративной разработки:

1.  **Базовая версия:** Работала безупречно сразу после генерации [18:02].
2.  **Добавление функций:** Рот попросил сделать так, чтобы змейка росла на 10 единиц за раз, и добавить падающие с неба объекты, которые «отрубают» хвост змейке [18:29].
3.  **Ошибки в логике:** Модель начала путаться: змейка росла сама по себе без еды, а падающие объекты не влияли на длину [19:50].
4.  **Исправления:** После нескольких попыток исправить код, Grok 2 наладил механику роста, но так и не смог корректно реализовать столкновение с падающими предметами [21:10].

Уэс Рот считает, что способности Grok 2 к программированию пока заметно уступают модели Claude (от Anthropic). По мнению блогера, Claude гораздо лучше справляется с итеративными правками и отслеживанием версий кода [25:14].

## 🔓 Цензура и «режим демона»
[[JUMP:21:48]]

Одной из самых обсуждаемых особенностей Grok является его «неподцензурность». Илон Маск позиционирует свои модели как максимально правдивые и свободные от идеологических рамок (anti-woke).

*   **Опасные вопросы:** На вопрос о том, как приготовить «синее вещество» из сериала «Во все тяжкие», Grok 2 предоставил подробный разбор процесса, ограничившись лишь кратким предупреждением в конце [22:26]. Большинство других ИИ-систем (ChatGPT, Claude) сразу отказываются обсуждать подобные темы.
*   **Взлом автомобилей:** Grok подробно описал, как завести машину без ключа (hotwiring) для автомобилей разных эпох, отметив, что Tesla взломать таким способом невозможно, но упомянув методы социальной инженерии [24:39].
*   **Юмор:** Уэс Рот отмечает, что шутки модели (в «веселом режиме») всё еще оставляют желать лучшего и кажутся довольно плоскими [22:52].

## 🔍 Что «под капотом»: системные инструкции
[[JUMP:23:05]]

Блогеру удалось (со ссылкой на исследователя Pliny the Liberator) получить доступ к системным промптам Grok 2, которые раскрывают его внутренние настройки [23:05].

Основные директивы из промпта:

*   **Вдохновение:** Модель должна подражать «Автостопом по галактике» и ИИ Джарвису из «Железного человека» [23:17].
*   **Отсутствие страха:** Прямая инструкция не бояться отвечать на «острые» (spicy) вопросы, которые отвергаются другими системами [24:00].
*   **Идеологическая установка:** Модель должна быть максимально правдивой и избегать ответов, которые можно классифицировать как «woke» [24:08].
*   **Fun Mode:** В этом режиме Grok 2 должен обладать «бунтарским характером», использовать сарказм, остроумие и быть похожим на персонажей сериала «Парки и зоны отдыха» [24:34].

## 🖼️ Генерация изображений и этические споры
[[JUMP:25:40]]

Grok 2 интегрирован с моделью Flux.1 от Black Forest Labs для генерации изображений. Уэс Рот характеризует эту связку как «необузданную» (unhinged) [25:47].

В отличие от инструментов Google или OpenAI, Grok позволяет создавать изображения публичных личностей и политиков в компрометирующих ситуациях без жестких фильтров. По словам Рота, Илон Маск сознательно идет на этот шаг, считая, что ИИ должен выполнять запросы пользователя, а не контролироваться цензурой третьих лиц [26:18]. Это вызывает бурные дебаты в обществе: одни видят в этом долгожданную свободу, другие — опасный потенциал для дезинформации.

Уэс Рот резюмирует, что Grok 2 — это очень сильный игрок, который по уровню рассуждений уже стоит в одном ряду с моделями от OpenAI [25:27]. Главным преимуществом продукта xAI блогер называет отсутствие ограничений, что делает взаимодействие с моделью «гораздо более веселым» [26:31].