1600 токенов в секунду: как новая модель Gemini Diffusion от Google переосмысляет генерацию кода

Wes Roth 55,3 тыс. 20 мин 5 мин 21.05.2025
Главное

Компания Google представила экспериментальную модель Gemini Diffusion, которая может радикально изменить подход к генерации текста и программного кода. В отличие от традиционных больших языковых моделей (LLM), работающих по принципу последовательного предсказания следующего слова, новая разработка использует механизмы диффузии, позволяя достигать невероятной скорости — свыше 1300 токенов в секунду. Блогер и исследователь ИИ Уэс Рот (Wes Roth) в своем новом видео подробно разобрал устройство технологии, продемонстрировал её возможности в кодинге «на лету» и обсудил фундаментальный вопрос: понимают ли нейросети структуру реального мира.

⚡️ Скорость как главный фактор: Gemini Diffusion в действии 0:00

Gemini Diffusion — это ранняя экспериментальная модель, которая выделяется среди существующих ИИ-инструментов своей скоростью. Во время демонстрации Уэс Рот смог создать семь различных мини-приложений всего за 30 секунд . По его словам, это не ускоренная запись, а реальное время работы модели .

Основные показатели производительности:

Автор подчеркивает, что Gemini Diffusion пока не стоит сравнивать по «интеллекту» или сложности решаемых задач с Gemini 2.5 Pro или другими флагманскими моделями . Это скорее технологическое превью нового подхода, где упор сделан на интерактивность и моментальный отклик.

🧠 Смена парадигмы: Авторегрессия против Диффузии 2:14

Чтобы понять уникальность Gemini Diffusion, Рот объясняет разницу между двумя методами обучения ИИ. Традиционные LLM являются авторегрессионными. Это означает, что они предсказывают следующее слово (токен) на основе всего предыдущего контекста .

Проблемы авторегрессионного метода:

  1. Последовательность: Модель вынуждена работать строго шаг за шагом, что ограничивает скорость .
  2. Накопление ошибок: Если ИИ ошибся в начале предложения, он не может «вернуться» и исправить его, продолжая строить текст на ошибочном фундаменте .
  3. Ограничение контекстного окна: Чем длиннее текст, тем сложнее модели удерживать в памяти все предыдущие звенья цепи .

Диффузионные модели, которые ранее использовались преимущественно для создания изображений (как Midjourney или Stable Diffusion), работают иначе. В процессе обучения изображение постепенно зашумляется случайными точками, пока не превратится в «статику» . Затем модель учат обратному процессу — «денойзингу» (очистке от шума).

Уэс Рот приводит аналогию с высказыванием Микеланджело: «В каждом блоке камня скрыта статуя, задача скульптора — лишь обнаружить её» . По мнению Рота, диффузионная модель действует аналогично: она берет массив «шума» и итеративно проявляет в нем структуру всего текста или кода целиком, а не по одному слову .

Преимущества диффузионного подхода:

💻 Программирование и креативность: Тесты в реальном времени 7:28

Несмотря на статус экспериментальной, Gemini Diffusion способна генерировать рабочий HTML-код и простую анимацию. Рот провел серию тестов, чтобы проверить границы возможностей модели :

Рот отмечает, что хотя Gemini Diffusion часто допускает мелкие ошибки в логике игр или анимации, скорость исправления этих ошибок компенсирует недостатки . Вы можете просто попросить «исправить это», и через секунду получите обновленный код.

📊 Конкуренция на рынке ИИ 12:22

Уэс Рот помещает новинку от Google в контекст современной гонки вооружений ИИ. Он признает, что на данный момент «королями кодинга» остаются Claude 3.5 (Anthropic) и Gemini 2.5 Pro . Тем не менее, он с энтузиазмом ожидает выхода Grok 3.5 и Grok 4 от компании Илона Маска xAI, которые должны появиться в течение года .

По мнению автора, рост числа мощных моделей выгоден прежде всего пользователям:

🧪 Научный взгляд: Понимает ли ИИ мир? 13:40

Ключевой частью выпуска стал анализ научной работы «Beyond Surface Statistics» (Гарвард), посвященной тому, как обучаются диффузионные модели . Исследователи задались вопросом: запоминает ли ИИ поверхностную статистику пикселей или он выстраивает внутреннюю модель реальности?

В ходе эксперимента модель обучали только на 2D-изображениях (например, фотографиях автомобилей), не давая никакой информации о глубине или трехмерном пространстве . Однако, используя специальные методы зондирования («probes»), ученые обнаружили, что на внутренних слоях нейросети формируется карта глубины .

Основные выводы исследования:

По мнению Рота, этот механизм объясняет успех не только диффузионных моделей, но и AlphaFold или современных LLM . Они не просто жонглируют словами или пикселями, а строят абстрактную модель правил, по которым существует мир, чтобы давать более точные прогнозы .

В заключение Уэс Рот призывает зрителей попробовать Gemini Diffusion самостоятельно, чтобы ощутить разницу в подходе . Несмотря на экспериментальный статус, эта технология может стать фундаментом для нового поколения сверхбыстрых и когерентных ИИ-ассистентов.

💬 Цитаты

«В каждом блоке камня скрыта статуя, задача скульптора — лишь обнаружить её.»

Уэс Рот (цитируя Микеланджело) 04:53

«Если мы определим понимание как наличие ментальной модели, способной предсказывать то, что происходит в мире, то эти модели определенно понимают мир.»

Уэс Рот (перефразируя Эндрю Ына) 19:01
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Авторегрессионная модель
Модель, которая генерирует данные последовательно, предсказывая следующий элемент на основе предыдущих.
Диффузионная модель
Алгоритм, который создает данные путем постепенного удаления шума из случайного сигнала.
Токен
Минимальная единица текста (слово или часть слова), которую обрабатывает нейросеть.
Денойзинг
Процесс очистки данных от случайного шума для восстановления структурированного сигнала.
📊 Цифры
🗓 Хронология
  1. Март 2024 Уэс Рот демонстрирует возможности раннего превью Gemini Diffusion.
  2. Ближайшее время Ожидаемый выход моделей Grok 3.5 и Grok 4 от компании xAI.
⚖️ Другая сторона
Искусственный интеллект Gemini Diffusion Google Wes Roth Large Language Models Beyond Surface Statistics