ИИ на грани опасности: почему Google предупреждает о критических способностях Gemini Deep Think в области биологии

Ведущий канала Уэс Рот (Wes Roth) анализирует свежий релиз от Google — модель Gemini 2.5 Deep Think, которая ранее продемонстрировала выдающиеся результаты на Международной математической олимпиаде. Однако параллельно с восторгом от технических достижений, сами разработчики и исследователи безопасности выражают серьезную обеспокоенность: возможности ИИ в области биологического и химического оружия приближаются к «критическим уровням».

🆕 Релиз Gemini 2.5 Deep Think: возможности и ограничения 0:00

Google официально представила новую модель Gemini 2.5 Deep Think, однако доступ к ней на текущий момент крайне ограничен. Насладиться мощью «глубокого мышления» могут только подписчики плана Google AI Ultra, стоимость которого составляет 250 долларов в месяц .

Техническая специфика и ограничения модели:

Параллельное мышление: Модель использует методы усиленного обучения (reinforcement learning) и параллельные вычисления, что позволяет ей «думать» над задачей одновременно с нескольких сторон, выдавая более детализированные и продуманные ответы .
Жесткие лимиты: Уэс Рот предупреждает, что сейчас пользователям доступно всего около пяти чатов в сутки . После этого наступает 24-часовая блокировка, что делает невозможной быструю итерацию и уточнение запросов.
Риск «испорченного желания»: Из-за ограниченного количества попыток ведущий сравнивает работу с моделью с джинном: если запрос сформулирован нечетко, вы рискуете потратить драгоценный кредит на бесполезный результат .

В качестве примера Уэс Рот приводит попытку создать 3D-симуляцию городского трафика. Первая попытка оказалась неудачной (модель выдала лишь график), съев лимит . Однако при повторном запуске Deep Think продемонстрировала значительное превосходство над стандартной Gemini 2.5 Pro. В частности, Google в своем официальном блоге показывает сравнение генерации 3D-модели пагоды: версия Deep Think создает гораздо более сложную архитектуру с пустотами, изгибами и высокой детализацией окружения (теней, деревьев и воды) .

⚠️ «Критический уровень»: предупреждение исследователей 0:03:05

Самым резонансным аспектом релиза стали заявления самих сотрудников Google DeepMind. Сэмюэл Олбани (Samuel Albany), один из исследователей в команде разработки, отметил, что модель демонстрирует пугающую способность не просто пересказывать научные данные, а синтезировать идеи из разных исследовательских работ способами, которые раньше не наблюдались у ИИ .

Ключевые опасения, изложенные в технической документации (Model Card):

Синтез знаний: Если старые модели (вроде GPT-3.5) с трудом объединяли знания из разных областей, то Deep Think делает это на уровне, который «требует тщательной оценки» .
Риски CBRN: Термин CBRN охватывает химические, биологические, радиологические и ядерные угрозы. Google признает, что модель генерирует подробные технические знания в этих областях .
Уровни критических способностей (CCL): Google ввела метрику Critical Capability Level. Если модель приближается к этому порогу, требуется пауза в разработке для внедрения защитных мер. Согласно отчету, в области биологии и химии Deep Think показывает лучшие результаты среди всех существующих моделей, и Google пока не может однозначно утверждать, что «критический уровень» (CCL) еще не достигнут .

По словам Рота, хотя модель все еще имеет пробелы в создании пошаговых безошибочных протоколов для создания оружия «под ключ», она максимально близко подошла к тому, чтобы стать опасным инструментом в руках злоумышленников .

🧪 Индустрия в тревоге: маркетинг или реальная угроза? 0:07:02

Google — не единственная компания, бьющая в колокола. В апреле 2024 года OpenAI предупредила, что модели с высоким риском содействия в создании биооружия станут реальностью в ближайшее время . Лаборатории xAI (Grok) и Anthropic также публикуют работы по методам управления рисками в биологических исследованиях и кибербезопасности .

В сообществе существуют две полярные точки зрения:

Скептическая: Многие эксперты и пользователи считают такие предупреждения маркетинговым ходом. Уэс Рот упоминает мнение, согласно которому Сэм Альтман (OpenAI) и другие лидеры индустрии раздувают опасность своих моделей («они настолько мощные, что могут уничтожить мир!»), чтобы привлечь инвестиции и оправдать высокую оценку компаний .
Тревожная: Сам Сэм Альтман утверждает, что «мигалки уже горят», а мир не воспринимает угрозу всерьез . Исследователь Google Сэмюэл Олбани, по мнению ведущего, вряд ли делает такие заявления ради курса акций — скорее, он искренне обеспокоен скоростью автоматизации R&D (научных разработок) .

🧮 Прорывы в математике и программировании 0:09:09

Помимо биологических рисков, Deep Think показала феноменальные результаты в точных науках. Модель в составе специализированной системы завоевала золото на Международной математической олимпиаде . Важным достижением стало то, что ИИ понимал условия задач на естественном языке, а не на языке программирования, как это требовалось ранее .

Модель также смогла доказать математическую гипотезу, которую люди не могли решить до этого момента . По словам исследователей, там, где человек пробует 2–3 подхода, Deep Think может параллельно прорабатывать 100 различных вариантов решения, что и обеспечивает такие прорывы .

Другие примеры практического применения, упомянутые в видео:

Язык TikZ: Модель отлично справляется с созданием сложных научных диаграмм и графиков .
Генерация игр: Пользователи уже используют Deep Think для создания «одноразовых» (one-shot) игр с нуля, таких как 3D-шутеры в стиле Space Invaders или интерфейсы управления ядерными реакторами в стиле киберпанк .
3D-интерфейсы: Итан Моллик (Ethan Mollick) продемонстрировал созданный моделью 3D-интерфейс для космического корабля, который можно вращать и изучать .

В завершение Уэс Рот делится личной историей Брайана Армстронга, CEO Coinbase, который для глубокой фокусировки слушает один и тот же трек Gareth Emery — Long Way Home более 60 раз подряд на репите . Ведущий призывает зрителей попробовать модель, но быть крайне осторожными с формулировкой промптов из-за жестких лимитов.