1600 токенов в секунду: как новая модель Gemini Diffusion от Google переосмысляет генерацию кода

Компания Google представила экспериментальную модель Gemini Diffusion, которая может радикально изменить подход к генерации текста и программного кода. В отличие от традиционных больших языковых моделей (LLM), работающих по принципу последовательного предсказания следующего слова, новая разработка использует механизмы диффузии, позволяя достигать невероятной скорости — свыше 1300 токенов в секунду. Блогер и исследователь ИИ Уэс Рот (Wes Roth) в своем новом видео подробно разобрал устройство технологии, продемонстрировал её возможности в кодинге «на лету» и обсудил фундаментальный вопрос: понимают ли нейросети структуру реального мира.

⚡️ Скорость как главный фактор: Gemini Diffusion в действии 0:00

Gemini Diffusion — это ранняя экспериментальная модель, которая выделяется среди существующих ИИ-инструментов своей скоростью. Во время демонстрации Уэс Рот смог создать семь различных мини-приложений всего за 30 секунд . По его словам, это не ускоренная запись, а реальное время работы модели .

Основные показатели производительности:

Скорость генерации: Модель выдает в среднем 1300 токенов в секунду, а зафиксированный автором максимум составил около 1600 токенов .
Масштаб: С такой скоростью ИИ мог бы «написать» все книги серии «Гарри Поттер» примерно за 22 минуты .
Мгновенный результат: Создание простого приложения (например, виртуального ксилофона) занимает около 1,5 секунд .

Автор подчеркивает, что Gemini Diffusion пока не стоит сравнивать по «интеллекту» или сложности решаемых задач с Gemini 2.5 Pro или другими флагманскими моделями . Это скорее технологическое превью нового подхода, где упор сделан на интерактивность и моментальный отклик.

🧠 Смена парадигмы: Авторегрессия против Диффузии 2:14

Чтобы понять уникальность Gemini Diffusion, Рот объясняет разницу между двумя методами обучения ИИ. Традиционные LLM являются авторегрессионными. Это означает, что они предсказывают следующее слово (токен) на основе всего предыдущего контекста .

Проблемы авторегрессионного метода:

Последовательность: Модель вынуждена работать строго шаг за шагом, что ограничивает скорость .
Накопление ошибок: Если ИИ ошибся в начале предложения, он не может «вернуться» и исправить его, продолжая строить текст на ошибочном фундаменте .
Ограничение контекстного окна: Чем длиннее текст, тем сложнее модели удерживать в памяти все предыдущие звенья цепи .

Диффузионные модели, которые ранее использовались преимущественно для создания изображений (как Midjourney или Stable Diffusion), работают иначе. В процессе обучения изображение постепенно зашумляется случайными точками, пока не превратится в «статику» . Затем модель учат обратному процессу — «денойзингу» (очистке от шума).

Уэс Рот приводит аналогию с высказыванием Микеланджело: «В каждом блоке камня скрыта статуя, задача скульптора — лишь обнаружить её» . По мнению Рота, диффузионная модель действует аналогично: она берет массив «шума» и итеративно проявляет в нем структуру всего текста или кода целиком, а не по одному слову .

Преимущества диффузионного подхода:

Параллельная обработка: Модель работает над всем объемом данных одновременно, что обеспечивает колоссальную скорость .
Глобальная когерентность: Проще поддерживать логическую связность больших блоков текста, так как модель видит всю картину сразу .
Коррекция на лету: В процессе итераций модель может исправлять ошибки в структуре, которые возникли на ранних этапах генерации .

💻 Программирование и креативность: Тесты в реальном времени 7:28

Несмотря на статус экспериментальной, Gemini Diffusion способна генерировать рабочий HTML-код и простую анимацию. Рот провел серию тестов, чтобы проверить границы возможностей модели :

Анимированный дракон: Модель за 2,1 секунды создала код летающего существа. Позже автор попросил добавить огонь и анимацию сна, с чем ИИ справился, изменив код за секунды .
Интерактивный лес: Был сгенерирован код с прыгающими (или скорее «летающими») кроликами в лесу .
Игры: Модель создала рабочую версию «Крестиков-ноликов» 4x4, используя эмодзи Сатурна и Земли вместо значков .
Стресс-тест на перевод: Автор попросил перевести текст на 40 языков одновременно. Модель выдала 16 000 токенов за несколько секунд, после чего сервис временно перестал отвечать из-за перегрузки .

Рот отмечает, что хотя Gemini Diffusion часто допускает мелкие ошибки в логике игр или анимации, скорость исправления этих ошибок компенсирует недостатки . Вы можете просто попросить «исправить это», и через секунду получите обновленный код.

📊 Конкуренция на рынке ИИ 12:22

Уэс Рот помещает новинку от Google в контекст современной гонки вооружений ИИ. Он признает, что на данный момент «королями кодинга» остаются Claude 3.5 (Anthropic) и Gemini 2.5 Pro . Тем не менее, он с энтузиазмом ожидает выхода Grok 3.5 и Grok 4 от компании Илона Маска xAI, которые должны появиться в течение года .

По мнению автора, рост числа мощных моделей выгоден прежде всего пользователям:

Усиливается конкуренция, что ведет к снижению цен на доступ к API .
Разработчики вынуждены быстрее внедрять инновации, чтобы не отстать от конкурентов .
Пользователи получают больше специализированных инструментов для разных задач .

🧪 Научный взгляд: Понимает ли ИИ мир? 13:40

Ключевой частью выпуска стал анализ научной работы «Beyond Surface Statistics» (Гарвард), посвященной тому, как обучаются диффузионные модели . Исследователи задались вопросом: запоминает ли ИИ поверхностную статистику пикселей или он выстраивает внутреннюю модель реальности?

В ходе эксперимента модель обучали только на 2D-изображениях (например, фотографиях автомобилей), не давая никакой информации о глубине или трехмерном пространстве . Однако, используя специальные методы зондирования («probes»), ученые обнаружили, что на внутренних слоях нейросети формируется карта глубины .

Основные выводы исследования:

Внутренняя 3D-модель: Модель «понимает», какие объекты находятся на переднем плане (отмечены красным в представлении ИИ), а какие — на заднем (отмечены синим), хотя её этому не учили напрямую .
Концепция объектов: ИИ выделяет «главный объект» и отделяет его от фона (декораций) уже на самых ранних этапах генерации из шума .
Определение понимания: Рот цитирует Эндрю Ына (Andrew Ng), который в беседе с Джеффри Хинтоном предположил, что если модель способна предсказывать состояние мира, создавая его внутреннюю ментальную репрезентацию, то это можно считать формой «понимания» .

По мнению Рота, этот механизм объясняет успех не только диффузионных моделей, но и AlphaFold или современных LLM . Они не просто жонглируют словами или пикселями, а строят абстрактную модель правил, по которым существует мир, чтобы давать более точные прогнозы .

В заключение Уэс Рот призывает зрителей попробовать Gemini Diffusion самостоятельно, чтобы ощутить разницу в подходе . Несмотря на экспериментальный статус, эта технология может стать фундаментом для нового поколения сверхбыстрых и когерентных ИИ-ассистентов.