В новом выпуске своего обзора новостей машинного обучения известный исследователь и блогер Янник Кильхер (Yannic Kilcher) анализирует ключевые события индустрии искусственного интеллекта. Главными темами обсуждения стали открытие исходного кода гигантской модели Grok-1 от xAI, масштабные анонсы чипов и робототехники от Nvidia, а также регуляторные изменения в Европе и Индии. Автор предлагает критический взгляд на баланс между инновациями и бюрократией, а также разбирает свежие утечки и технические публикации.
🔓 Открытие исходного кода Grok-1 от xAI 0:14
Одним из самых громких событий недели, по мнению Янника Кильхера, стала публикация весов и исходного кода модели Grok-1 под свободной лицензией Apache 2.0. Модель, разработанная компанией Илона Маска xAI, насчитывает внушительные 314 миллиардов параметров. Как отмечает автор, для запуска такой архитектуры потребуется колоссальное количество вычислительных ресурсов — в шутку он упоминает необходимость наличия около 69 графических процессоров.
Янник Кильхер подчеркивает, что Grok-1 отличается от конкурентов более ироничным, саркастичным и свободным тоном ответов, что соответствует концепции «свободы слова», декларируемой Маском. Хотя коммерческий успех Grok остается под вопросом, техническая реализация выглядит крайне солидно. Энтузиасты уже изучили репозиторий проекта на GitHub и обнаружили, что код написан на JAX, а сама архитектура модели в файле model.py занимает всего около 1400 строк. По мнению Кильхера, этот шаг заслуживает огромной похвалы, так как xAI предоставила сообществу настоящую open-source лицензию для модели такого масштаба.
📊 Спор о параметрах и звездах на GitHub 4:46
Популярность репозитория Grok-1 вызвала бурное обсуждение в ИТ-сообществе. Один из мейнтейнеров проекта, Игорь Бабушкин, отметил стремительный рост графиков популярности Grok-1 на GitHub по сравнению с моделями Llama и Mistral. Это вызвало ироничную реакцию генерального директора Mistral Артура Менша, который заявил, что количество «звезд» на GitHub, похоже, напрямую коррелирует с избыточным количеством параметров модели.
⚡ Новая эра чипов: Nvidia GTC и архитектура Blackwell 2:07
На конференции GTC компания Nvidia представила новое поколение графических процессоров под названием Blackwell. Согласно официальным заявлениям, эти чипы примерно в два раза быстрее решений предыдущего поколения. Главной технологической особенностью новинки стало внедрение тензорных ядер с поддержкой формата fp4 (4-битные числа с плавающей запятой).
Янник Кильхер выражает сомнение относительно того, как именно будет работать квантование до 4 бит без потери точности, поскольку традиционно при таком экстремальном сжатии используется целочисленное квантование, а не вычисления с плавающей запятой. Тем не менее, автор уверен, что инженеры Nvidia провели все необходимые тесты масштабирования, прежде чем делать столь крупную ставку на архитектуру fp4. Кильхер проводит аналогию со старыми компьютерами, обладавми всего 8 КБ оперативной памяти, и предполагает, что в будущем программисты будут смотреть на эпоху fp64 и fp32 как на безумие, когда вычисления производились с избыточной точностью, тогда как для больших языковых моделей может быть достаточно «половины бита».
🤖 Восхождение гуманоидных роботов: от GR00T до фабрик Mercedes 3:26
В рамках конференции GTC Nvidia уделила значительное внимание робототехнике, анонсировав базовую модель GR00T (Project GR00T) для антропоморфных роботов. Эта нейросеть способна принимать сенсорные данные, включая зрение и текст, и транслировать их в физические действия. Обучение таких роботов планируется проводить в виртуальной среде Omniverse от Nvidia, имитирующей сложные ландшафты реального мира. Локальные вычисления будут обеспечиваться энергоэффективными акселераторами серии Jetson. Кроме того, Nvidia объявила о поддержке общепринятого стандарта Robot Operating System (ROS).
🍿 Демонстрации против реальных возможностей 11:35
Янник Кильхер скептически оценивает текущие маркетинговые тренды в робототехнике. Комментируя видеоролик компании Figure AI, где в гуманоидного робота интегрировали технологии ChatGPT, автор назвал это скорее «голливудским шоу», нежели демонстрацией реальных автономных навыков. В частности, в ролике робот успешно передает человеку яблоко по запросу «дать что-нибудь поесть», однако Кильхер иронично замечает, что на столе перед роботом лежал исключительно один этот плод, что сильно упрощало задачу распознавания.
Тем не менее, Кильхер признает практическую ценность антропоморфной формы. Автопроизводитель Mercedes уже начал пилотное внедрение гуманоидных роботов компании Apptronik на своих заводах для выполнения низкоквалифицированных задач. Автор соглашается, что такая форма имеет смысл, поскольку инфраструктура современных фабрик изначально проектировалась под параметры человеческого тела. Аналогичные шаги предпринимает компания Agility Robotics, поставляющая своих роботов на склады Amazon и BMW.
🕵️ Утечки имен моделей OpenAI и технические баги 5:39
В сообществе разработчиков разразился скандал: энтузиасты смогли методом перебора (brute-force) через API OpenAI обнаружить названия скрытых моделей, которые официально не анонсировались. Список изначально появился на платформе 4chan и быстро распространился по сети. Различные специалисты подтвердили, что к этим моделям действительно можно получить доступ, зная их точные технические идентификаторы.
Среди обнаруженных имен фигурируют следующие позиции:
Jan Street— вероятно, специальная версия для финансовых задач.superhuman— которая, как выяснилось, является не «сверхразумом», а интеграцией для одноименного почтового клиента.gpt4-duolingo— модель, назначение которой пока неясно: то ли она обучалась на данных сервиса Duolingo, то ли создана эксклюзивно для этой компании.
Янник Кильхер полагает, что данная уязвимость будет закрыта инженерами OpenAI в кратчайшие сроки, однако сам факт существования таких скрытых веток указывает на практику тестирования специфических промптов или тонкой настройки под конкретных корпоративных клиентов.
🐛 Исправление скрытых багов в Google Gemma 15:21
В кодовой базе модели Gemma от Google были обнаружены критические архитектурные ошибки, влиявшие как на инференс, так и на качество тонкой настройки (fine-tuning). Разработчик Даниэль Хан на Reddit сообщил, что сообществу удалось выявить крайне незаметные баги. Например, замена математической операции y * 1 / x на y / x приводила к искажениям в позиционных эмбеддингах. Найти подобные «тихие» баги без участия сотен независимых исследователей практически невозможно. К текущему моменту все ошибки устранены, а в открытый доступ выложен Colab-ноутбук для корректного обучения модели.
🔒 Анализ зашифрованного трафика ChatGPT 16:19
Новое научное исследование продемонстрировало метод дешифровки контента при общении с ChatGPT. Поскольку большие языковые модели стримят ответы посимвольно (токен за токеном), размер пакетов в зашифрованном трафике выдает длину конкретных токенов. Используя эвристическое декодирование и обученные языковые модели, исследователи смогли с высокой долей вероятности угадывать структуру фраз и восстанавливать исходный текст, основываясь лишь на метаданных длины слов. По мнению Кильхера, посимвольный стриминг создает ранее неизвестные уязвимости в классических протоколах безопасности.
🏢 Поглощение Inflection AI и слухи вокруг Apple Gemini 7:24
Издание TechCrunch сообщило о фактическом поглощении стартапа Inflection AI его главным инвестором — корпорацией Microsoft. Стартап, привлекший рекордные $1,3 млрд на создание персонального ИИ-ассистента Pi, не смог добиться значимого конкурентного преимущества перед ChatGPT, что сделало его многомиллиардную оценку неподъемной.
В результате двое из трех соучредителей Inflection перешли на работу в Microsoft для формирования нового подразделения Microsoft AI. Янник Кильхер отмечает, что Microsoft демонстрирует хитрую стратегию: сначала активно инвестирует в перспективные стартапы, а затем фактически забирает их ключевую команду под свое крыло. Для остальных инвесторов Inflection, вложивших огромные средства, эта ситуация выглядит крайне неоднозначной.
📲 Слухи о сделке Apple и Google 22:26
Согласно отчету Bloomberg, компания Apple ведет переговоры с холдингом Alphabet о лицензировании ИИ-движка Gemini для интеграции в будущие модели iPhone, что спровоцировало рост акций Alphabet на 4%. Комментируя формулировку новостных агентств «источники, знакомые с ситуацией», Кильхер иронизирует, что у всех мировых СМИ, похоже, есть один общий вымышленный телефонный номер «анонима», который поставляет слухи ради сенсаций, хотя крупные медиа и утверждают, что тщательно проверяют свои источники.
🇪🇺 Законодательное регулирование: Европейский AI Act против гибкости Индии 9:22
Европейские законодатели сделали важный шаг на пути к внедрению AI Act — первого в мире масштабного свода правил регулирования искусственного интеллекта, который должен вступить в силу в мае после одобрения Европейским советом. В ЕС это событие преподносят как установление глобального регуляторного стандарта.
Янник Кильхер подверг жесткой критике европейский подход. Несмотря на то, что финальная версия закона оказалась менее драконовской по отношению к open-source сообществу и научным исследованиям, чем планировалось изначально, общая тенденция вызывает у автора пессимизм. Пока американские компании создают мощнейшие чипы Nvidia и открывают коды Grok-1, Европа, по мнению Кильхера, способна лишь плодить бюрократию. Он с сарказмом предполагает, что следующим «достижением» ЕС станет появление на сайтах баннеров об использовании ИИ рядом с раздражающими всех cookie-баннерами, которые никак не улучшили жизнь общества, а лишь заставили пользователей бездумно соглашаться на сбор данных.
В качестве позитивного примера Кильхер приводит регуляторный маневр Индии. Накануне индийские власти выпустили строгую рекомендацию, требующую обязательного одобрения правительством любых новых ИИ-моделей до их запуска. Однако после шквала критики со стороны местных и международных предпринимателей и инвесторов, правительство Индии оперативно отозвало это требование. По мнению автора, Европе стоит поучиться у Индии способности вовремя признавать регуляторные перегибы и давать обратный ход ошибочным инициативам.
🛠️ Микро-новости: новые библиотеки и оптимизация эмбеддингов 14:41
В завершение обзора Янник Кильхер кратко перечислил еще несколько примечательных релизов недели:
- Open-Sora: Проект с открытым исходным кодом для генерации видео по тексту набрал почти 10 000 звезд на GitHub. Автор убежден, что open-source видеомодели со временем повторят путь Stable Diffusion и закроют большинство потребностей исследователей, избавив их от необходимости платить коммерческим вендорам.
- Fuzz Types: Разработчик Иэн Маурер выпустил библиотеку
fuzztypes, предназначенную для автоматического исправления и парсинга неточных или «размытых» данных (например, дат и времени), возвращаемых большими языковыми моделями. - Ollama: Популярный инструмент для локального запуска нейросетей официально добавил поддержку графических карт AMD.
- Apple MM1: Вышло исследование семейства мультимодальных моделей Apple MM1 (до 30 млрд параметров для плотных моделей и до 64 млрд для MoE). Важнейший вывод работы: наибольшее влияние на результат оказывают кодировщик изображений, их разрешение и количество токенов, тогда как архитектура коннектора практически не важна. Также критически важен правильный микс чередующихся текстовых и графических данных.
- LaWAG: Инструмент, позволяющий ИИ-агентам автономно взаимодействовать с веб-сайтами. Пользователь может давать текстовые инструкции, а модель сама управляет браузером, что приближает индустрию к созданию полноценных автономных помощников (например, для автоматического бронирования туров).
- Google Chain of Table: Архитектурный подход для работы с табличными данными. Вместо генерации сложных SQL-запросов, модель итеративно достраивает новые вычисляемые столбцы и промежуточные таблицы, что значительно повышает точность логических выводов за счет структурирования процесса мышления ИИ.
- Stability AI Stable Video 3D: Нейросеть, способная по одной плоской фотографии воссоздавать трехмерный орбитальный вид объекта.
- Cohere Embed V3: Новая модель эмбеддингов с поддержкой сжатия до int8 и бинарных форматов (1-бит). Это позволяет сократить требования к оперативной памяти с 2,8 ТБ (для float32) до скромных 30 ГБ при сохранении и даже улучшении качества поиска. Автор отмечает, что сравнения выбраны очень аккуратно, но технология определенно полезна для индустрии.