# 1600 токенов в секунду: как новая модель Gemini Diffusion от Google переосмысляет генерацию кода

Источник: https://www.youtube.com/watch?v=gLdUcEhuaQo
Канал: Wes Roth
Опубликовано: 21.05.2025

---

Компания Google представила экспериментальную модель Gemini Diffusion, которая может радикально изменить подход к генерации текста и программного кода. В отличие от традиционных больших языковых моделей (LLM), работающих по принципу последовательного предсказания следующего слова, новая разработка использует механизмы диффузии, позволяя достигать невероятной скорости — свыше 1300 токенов в секунду. Блогер и исследователь ИИ Уэс Рот (Wes Roth) в своем новом видео подробно разобрал устройство технологии, продемонстрировал её возможности в кодинге «на лету» и обсудил фундаментальный вопрос: понимают ли нейросети структуру реального мира.

## ⚡️ Скорость как главный фактор: Gemini Diffusion в действии
[[JUMP:0:00]]

Gemini Diffusion — это ранняя экспериментальная модель, которая выделяется среди существующих ИИ-инструментов своей скоростью. Во время демонстрации Уэс Рот смог создать семь различных мини-приложений всего за 30 секунд [0:12]. По его словам, это не ускоренная запись, а реальное время работы модели [0:00]. 

Основные показатели производительности:

*   **Скорость генерации:** Модель выдает в среднем 1300 токенов в секунду, а зафиксированный автором максимум составил около 1600 токенов [0:39].
*   **Масштаб:** С такой скоростью ИИ мог бы «написать» все книги серии «Гарри Поттер» примерно за 22 минуты [0:52].
*   **Мгновенный результат:** Создание простого приложения (например, виртуального ксилофона) занимает около 1,5 секунд [1:08].

Автор подчеркивает, что Gemini Diffusion пока не стоит сравнивать по «интеллекту» или сложности решаемых задач с Gemini 2.5 Pro или другими флагманскими моделями [0:12]. Это скорее технологическое превью нового подхода, где упор сделан на интерактивность и моментальный отклик.

## 🧠 Смена парадигмы: Авторегрессия против Диффузии
[[JUMP:2:14]]

Чтобы понять уникальность Gemini Diffusion, Рот объясняет разницу между двумя методами обучения ИИ. Традиционные LLM являются авторегрессионными. Это означает, что они предсказывают следующее слово (токен) на основе всего предыдущего контекста [2:28].

Проблемы авторегрессионного метода:

1.  **Последовательность:** Модель вынуждена работать строго шаг за шагом, что ограничивает скорость [3:06].
2.  **Накопление ошибок:** Если ИИ ошибся в начале предложения, он не может «вернуться» и исправить его, продолжая строить текст на ошибочном фундаменте [3:32].
3.  **Ограничение контекстного окна:** Чем длиннее текст, тем сложнее модели удерживать в памяти все предыдущие звенья цепи [3:19].

Диффузионные модели, которые ранее использовались преимущественно для создания изображений (как Midjourney или Stable Diffusion), работают иначе. В процессе обучения изображение постепенно зашумляется случайными точками, пока не превратится в «статику» [4:00]. Затем модель учат обратному процессу — «денойзингу» (очистке от шума). 

Уэс Рот приводит аналогию с высказыванием Микеланджело: «В каждом блоке камня скрыта статуя, задача скульптора — лишь обнаружить её» [4:53]. По мнению Рота, диффузионная модель действует аналогично: она берет массив «шума» и итеративно проявляет в нем структуру всего текста или кода целиком, а не по одному слову [5:06].

Преимущества диффузионного подхода:

*   **Параллельная обработка:** Модель работает над всем объемом данных одновременно, что обеспечивает колоссальную скорость [5:33].
*   **Глобальная когерентность:** Проще поддерживать логическую связность больших блоков текста, так как модель видит всю картину сразу [5:33].
*   **Коррекция на лету:** В процессе итераций модель может исправлять ошибки в структуре, которые возникли на ранних этапах генерации [5:46].

## 💻 Программирование и креативность: Тесты в реальном времени
[[JUMP:7:28]]

Несмотря на статус экспериментальной, Gemini Diffusion способна генерировать рабочий HTML-код и простую анимацию. Рот провел серию тестов, чтобы проверить границы возможностей модели [7:42]:

*   **Анимированный дракон:** Модель за 2,1 секунды создала код летающего существа. Позже автор попросил добавить огонь и анимацию сна, с чем ИИ справился, изменив код за секунды [8:06].
*   **Интерактивный лес:** Был сгенерирован код с прыгающими (или скорее «летающими») кроликами в лесу [9:27].
*   **Игры:** Модель создала рабочую версию «Крестиков-ноликов» 4x4, используя эмодзи Сатурна и Земли вместо значков [10:07].
*   **Стресс-тест на перевод:** Автор попросил перевести текст на 40 языков одновременно. Модель выдала 16 000 токенов за несколько секунд, после чего сервис временно перестал отвечать из-за перегрузки [11:39].

Рот отмечает, что хотя Gemini Diffusion часто допускает мелкие ошибки в логике игр или анимации, скорость исправления этих ошибок компенсирует недостатки [11:00]. Вы можете просто попросить «исправить это», и через секунду получите обновленный код.

## 📊 Конкуренция на рынке ИИ
[[JUMP:12:22]]

Уэс Рот помещает новинку от Google в контекст современной гонки вооружений ИИ. Он признает, что на данный момент «королями кодинга» остаются Claude 3.5 (Anthropic) и Gemini 2.5 Pro [12:35]. Тем не менее, он с энтузиазмом ожидает выхода Grok 3.5 и Grok 4 от компании Илона Маска xAI, которые должны появиться в течение года [12:48].

По мнению автора, рост числа мощных моделей выгоден прежде всего пользователям:

*   Усиливается конкуренция, что ведет к снижению цен на доступ к API [13:27].
*   Разработчики вынуждены быстрее внедрять инновации, чтобы не отстать от конкурентов [13:14].
*   Пользователи получают больше специализированных инструментов для разных задач [13:27].

## 🧪 Научный взгляд: Понимает ли ИИ мир?
[[JUMP:13:40]]

Ключевой частью выпуска стал анализ научной работы «Beyond Surface Statistics» (Гарвард), посвященной тому, как обучаются диффузионные модели [13:40]. Исследователи задались вопросом: запоминает ли ИИ поверхностную статистику пикселей или он выстраивает внутреннюю модель реальности?

В ходе эксперимента модель обучали только на 2D-изображениях (например, фотографиях автомобилей), не давая никакой информации о глубине или трехмерном пространстве [14:07]. Однако, используя специальные методы зондирования («probes»), ученые обнаружили, что на внутренних слоях нейросети формируется карта глубины [15:59].

Основные выводы исследования:

*   **Внутренняя 3D-модель:** Модель «понимает», какие объекты находятся на переднем плане (отмечены красным в представлении ИИ), а какие — на заднем (отмечены синим), хотя её этому не учили напрямую [16:52].
*   **Концепция объектов:** ИИ выделяет «главный объект» и отделяет его от фона (декораций) уже на самых ранних этапах генерации из шума [17:42].
*   **Определение понимания:** Рот цитирует Эндрю Ына (Andrew Ng), который в беседе с Джеффри Хинтоном предположил, что если модель способна предсказывать состояние мира, создавая его внутреннюю ментальную репрезентацию, то это можно считать формой «понимания» [18:07].

По мнению Рота, этот механизм объясняет успех не только диффузионных моделей, но и AlphaFold или современных LLM [18:48]. Они не просто жонглируют словами или пикселями, а строят абстрактную модель правил, по которым существует мир, чтобы давать более точные прогнозы [19:01].

В заключение Уэс Рот призывает зрителей попробовать Gemini Diffusion самостоятельно, чтобы ощутить разницу в подходе [19:39]. Несмотря на экспериментальный статус, эта технология может стать фундаментом для нового поколения сверхбыстрых и когерентных ИИ-ассистентов.