Новая нейросеть от Илона Маска, Grok 2, стремительно ворвалась в топ мировых рейтингов, заняв второе место в Chatbot Arena и вплотную приблизившись к лидерам от OpenAI и Google. В своём новом видео техноблогер Уэс Рот (Wes Roth) проводит детальный тест-драйв модели, проверяя её логику, навыки программирования и готовность отвечать на «запретные» вопросы. Главная интрига заключается в том, действительно ли xAI удалось создать мощный ИИ без жесткой цензуры и идеологических ограничений.
🏆 Прорыв в рейтингах и техническое ускорение 0:00
Grok 2 Large показал впечатляющие результаты сразу после выхода, заняв вторую строчку в глобальном лидерборде Chatbot Arena . Его «младший брат», Grok 2 Mini, также вошел в пятерку лучших, заняв почетное пятое место. По словам ведущего разработчика команды xAI Игоря Бабушкина, Grok Mini стал в два раза быстрее всего за один день благодаря оптимизации .
Технический прогресс модели обусловлен серьезной переработкой инфраструктуры. Алам Джанг и Малики С. полностью переписали стек инференса (inference stack), используя SG Lang . Это позволило запускать большую модель Grok 2, требующую работы на нескольких хостах (multihost inference), с приемлемой скоростью . Как утверждает Уэс Рот, команда xAI движется «очень, очень быстро», стремясь сократить отставание от конкурентов.
🧩 Тесты на логику и пространственное мышление 1:05
Уэс Рот подверг Grok 2 серии испытаний, чтобы проверить, насколько хорошо модель понимает контекст и сложные условия задач.
- На вопрос о том, где находится Бостон (слева или справа), если стоять в Южной Дакоте и смотреть на Техас, Grok 2 ответил верно.
- Модель не просто угадала, а расписала логику: Южная Дакота — на севере, Техас — на юге, Бостон — на востоке. Следовательно, при взгляде на юг Бостон окажется слева .
Классическая задача о загадочном убийстве :
- В задаче про тетушку Агату и трех жителей поместья Grok 2 начал рассуждать правильно, анализируя отношения между персонажами через пронумерованные предпосылки .
- Однако модель допустила логическую ошибку, исключив возможность самоубийства, аргументируя это тем, что в формулировке «кто-то убил Агату» подразумевается внешний агент .
- Уэс Рот отмечает, что модель «споткнулась» на ложном следе, хотя была очень близка к верному ответу .
Задача выбора Уэйсона (Wason selection problem) :
- Этот тест проверяет когнитивные искажения и способность к фальсификации гипотез. Grok 2 правильно определил, что нужно пытаться опровергнуть утверждение, а не подтвердить его .
- Тем не менее, в итоговом ответе модель допустила ошибку, предложив перевернуть лишние карточки. По наблюдениям Рота, GPT-4 (версия Legacy) справилась с этой задачей идеально, в то время как GPT-4o также потерпела неудачу .
Задача с расстановкой мебели на сетке 3x3 :
- С этим сложным заданием, требующим визуализации пространства и соблюдения пяти условий (например, «D выше всех остальных»), Grok 2 не справился .
- Модель не смогла удержать в памяти все ограничения одновременно, даже после подсказок. Рот подчеркивает, что на данный момент ни одна крупная языковая модель не решает эту задачу корректно без специальных техник промптинга .
💻 Программирование: скорость против качества 17:20
В тесте на написание кода Уэс Рот попросил Grok 2 создать игру «Змейка» на Python с использованием библиотеки PyGame.
Результаты итеративной разработки:
- Базовая версия: Работала безупречно сразу после генерации .
- Добавление функций: Рот попросил сделать так, чтобы змейка росла на 10 единиц за раз, и добавить падающие с неба объекты, которые «отрубают» хвост змейке .
- Ошибки в логике: Модель начала путаться: змейка росла сама по себе без еды, а падающие объекты не влияли на длину .
- Исправления: После нескольких попыток исправить код, Grok 2 наладил механику роста, но так и не смог корректно реализовать столкновение с падающими предметами .
Уэс Рот считает, что способности Grok 2 к программированию пока заметно уступают модели Claude (от Anthropic). По мнению блогера, Claude гораздо лучше справляется с итеративными правками и отслеживанием версий кода .
🔓 Цензура и «режим демона» 21:48
Одной из самых обсуждаемых особенностей Grok является его «неподцензурность». Илон Маск позиционирует свои модели как максимально правдивые и свободные от идеологических рамок (anti-woke).
- Опасные вопросы: На вопрос о том, как приготовить «синее вещество» из сериала «Во все тяжкие», Grok 2 предоставил подробный разбор процесса, ограничившись лишь кратким предупреждением в конце . Большинство других ИИ-систем (ChatGPT, Claude) сразу отказываются обсуждать подобные темы.
- Взлом автомобилей: Grok подробно описал, как завести машину без ключа (hotwiring) для автомобилей разных эпох, отметив, что Tesla взломать таким способом невозможно, но упомянув методы социальной инженерии .
- Юмор: Уэс Рот отмечает, что шутки модели (в «веселом режиме») всё еще оставляют желать лучшего и кажутся довольно плоскими .
🔍 Что «под капотом»: системные инструкции 23:05
Блогеру удалось (со ссылкой на исследователя Pliny the Liberator) получить доступ к системным промптам Grok 2, которые раскрывают его внутренние настройки .
Основные директивы из промпта:
- Вдохновение: Модель должна подражать «Автостопом по галактике» и ИИ Джарвису из «Железного человека» .
- Отсутствие страха: Прямая инструкция не бояться отвечать на «острые» (spicy) вопросы, которые отвергаются другими системами .
- Идеологическая установка: Модель должна быть максимально правдивой и избегать ответов, которые можно классифицировать как «woke» .
- Fun Mode: В этом режиме Grok 2 должен обладать «бунтарским характером», использовать сарказм, остроумие и быть похожим на персонажей сериала «Парки и зоны отдыха» .
🖼️ Генерация изображений и этические споры 25:40
Grok 2 интегрирован с моделью Flux.1 от Black Forest Labs для генерации изображений. Уэс Рот характеризует эту связку как «необузданную» (unhinged) .
В отличие от инструментов Google или OpenAI, Grok позволяет создавать изображения публичных личностей и политиков в компрометирующих ситуациях без жестких фильтров. По словам Рота, Илон Маск сознательно идет на этот шаг, считая, что ИИ должен выполнять запросы пользователя, а не контролироваться цензурой третьих лиц . Это вызывает бурные дебаты в обществе: одни видят в этом долгожданную свободу, другие — опасный потенциал для дезинформации.
Уэс Рот резюмирует, что Grok 2 — это очень сильный игрок, который по уровню рассуждений уже стоит в одном ряду с моделями от OpenAI . Главным преимуществом продукта xAI блогер называет отсутствие ограничений, что делает взаимодействие с моделью «гораздо более веселым» .