В новом выпуске обзора новостей машинного обучения Янник Килчер (Yannic Kilcher) анализирует последние достижения технологических гигантов и исследовательских институтов. В центре внимания — универсальная модель Microsoft для обработки изображений и текстов, прорыв Meta в области тактильных сенсоров для роботов и запуск российской нейросети ruDALL-E.
📊 Инструментарий для анализа данных: Weights & Biases Tables 0:15
Выпуск начинается с обзора функционала платформы Weights & Biases, а именно инструмента Tables . По словам Янника Килчера, это интерактивный способ исследования не только результатов экспериментов, но и самих данных.
Ключевые возможности инструмента:
- Включение в таблицы изображений, аудиофайлов, видео и масок предсказаний моделей .
- Сравнение результатов различных моделей в рамках одной таблицы .
- Вычисление метрик «на лету» (false positives, f1 score, AUC) с помощью специального синтаксиса .
Янник Килчер демонстрирует работу инструмента на примере набора данных с комментариями из Reddit . С помощью фильтров он находит комментарии, в которых одновременно присутствуют эмоции радости и грусти , и анализирует уровень «печали» в различных сабреддитах. По наблюдениям ведущего, сабреддит о футболе (soccer) оказался на третьем месте по уровню грусти в его выборке .
🌐 Microsoft Turing Bletchley: универсальное понимание мира 3:18
Microsoft представила модель Turing Bletchley — универсальное представление для изображений и текстов . Название отсылает к Блетчли-парку, где Алан Тьюринг взламывал «Энигму» .
По аналогии с CLIP, эта модель объединяет модальности текста и изображений, но делает это сразу для множества языков . Модель обучалась на парах «картинка-текст» из интернета с использованием двух целевых функций:
- Сближение представлений изображения и относящегося к нему текста .
- Сближение представлений разных текстов (на разных языках), описывающих одно и то же изображение .
Янник Килчер отмечает, что модель понимает рекламу Coca-Cola независимо от языка, распознает карты и справляется с OCR . Она способна соотносить китайские иероглифы «Великая Китайская стена» с соответствующими фотографиями людей на фоне этой достопримечательности .
Ведущий критически замечает, что в демонстрационном интерфейсе Microsoft запросы ограничены предустановленными вариантами . По его мнению, это сделано не ради «черри-пикинга», а чтобы пользователи не могли генерировать непристойный контент или извлекать изображения, защищенные авторским правом . Также Килчер в шутку называет модель «ужасной», заметив, что в результатах поиска по запросу «Сон Гоку» затесался «Сон Гохан» .
🤖 Meta и создание искусственной кожи для ИИ 6:40
Meta (бывшая Facebook) представила экосистему для тактильного восприятия роботов . Проект включает в себя аппаратные и программные решения:
- Digit: высокоточный сенсор прикосновений для кончиков пальцев, выпускаемый совместно с GelSite .
- ReSkin: дешевая заменяемая эластичная «кожа» с магнитными датчиками .
- PyTouch: библиотека на PyTorch для обработки тактильных данных .
- Tacto: симулятор для обучения тактильному восприятию .
Янник Килчер подчеркивает важность ReSkin: это мягкий материал, позволяющий роботу получать обратную связь . Это критически важно для таких задач, как захват черники, которую легко раздавить без контроля силы сжатия .
Технологическим прорывом, по словам ведущего, стала калибровка . Обычно мягкие датчики требуют индивидуальной калибровки из-за особенностей производства. Meta применила метод самообучения (self-supervised technique), который позволяет сенсорам адаптироваться без ручной настройки . Чертежи Digit были выложены в открытый доступ .
🎨 Аниме и роботы: от AnimeGAN до манипуляций в руках 9:58
Обсуждение переходит к популярной модели AnimeGAN v2, которая переносит стиль аниме на реальные фотографии . Янник Килчер хвалит экосистему за то, как быстро научная работа превращается в доступный инструмент: от оригинального кода на TensorFlow до реализации в PyTorch и удобного интерфейса на Hugging Face .
В области робототехники исследователи из MIT опубликовали работу о переориентации объектов в руке робота . Система обучается в симуляции вращать предметы любой формы в нужное положение. Используется модель «учитель-ученик»:
- Учитель имеет доступ к «привилегированным» данным (скорость движения пальцев и т.д.), которые есть только в симуляторе .
- Ученик обучается у «учителя» в режиме обучения с учителем (supervised learning), имея доступ только к визуальным данным и положению суставов .
Это позволяет достичь высокой производительности даже на новых объектах в режиме zero-shot .
⚖️ Алгоритм гнева Facebook: журналистика против реальности 13:08
Янник Килчер подробно разбирает статью в Washington Post о том, как алгоритм Facebook якобы способствовал распространению ненависти . В статье утверждается, что Facebook присваивал эмоции «гнев» пять очков, в то время как обычному лайку — только одно .
Ведущий критикует подачу материала, называя её «низкопробной журналистикой» . По мнению Килчера, Washington Post искажает контекст:
- Рейтинг в 5 очков давался всем эмоциям (любовь, ха-ха, грусть, гнев), кроме лайка .
- Логика разработчиков заключалась в том, что использование эмодзи требует двух кликов вместо одного, что означает более высокую вовлеченность пользователя .
- Платформы часто завышают вес новых функций, чтобы стимулировать их использование .
Килчер полагает, что проблема сложнее, чем желание Марка Цукерберга «разозлить всех» ради прибыли . Он призывает зрителей читать подобные статьи критически, отделяя журналистский фрейминг от реальных инженерных проблем рекомендательных систем .
🧬 ИИ в медицине и российская ruDALL-E 17:07
Демис Хассабис объявил о запуске Isomorphic Labs — новой компании под зонтиком Alphabet . Её цель — переосмыслить поиск лекарств с использованием подхода AI-first . Хассабис станет генеральным директором новой компании, сохранив пост в DeepMind .
Sberbank AI выпустил ruDALL-E — российскую версию модели DALL-E от OpenAI . Основные факты:
- Выпущено две версии: на 1,3 млрд параметров (уже доступна) и на 12 млрд .
- Модель работает в связке с российским CLIP и моделью супер-разрешения .
- Код и модели выложены на GitHub .
Поскольку модель понимает только русский язык, в демо-версии на Hugging Face используется автоматический переводчик с английского . Янник отмечает, что это затрудняет оценку: не всегда понятно, ошиблась ли нейросеть или подвел переводчик . Ведущий подчеркивает, что бизнес-модель закрытых нейросетей недолговечна — как только публикуется статья, сообщество быстро воспроизводит результаты .
🖼️ Атаки на масштабирование и крах Zillow 20:41
Янник Килчер обсуждает необычную атаку на системы ИИ через алгоритмы изменения размера изображений (image scaling attacks) . Если подготовить изображение особым образом, то после уменьшения (downscaling) оно будет выглядеть совершенно иначе для нейросети .
Например, на входе может быть картинка, которая после уменьшения алгоритмом TensorFlow превращается в изображение собаки, хотя оригинал на него не похож . По словам Килчера, это не свойство самого масштабирования, а следствие ошибок в реализациях библиотек (отсутствие правильного антиалиасинга) . Из популярных библиотек только PIL (Pillow) справляется с задачей корректно .
Также в выпуске упоминается крах сервиса iBuying от компании Zillow . Компания использовала ИИ для оценки стоимости домов, покупала их и планировала перепродавать. Однако алгоритм не учитывал нюансы, которые понятны местным риелторам . В результате Zillow была вынуждена уволить 25% сотрудников и закрыть направление, так как дома продавались в убыток .
Килчер резюмирует, что это урок для ML-инженеров: нельзя просто «натравить ИИ на проблему» и ждать успеха без качественных данных и валидации .
🛠️ Полезные инструменты и «ИИ-пропаганда» 31:38
В завершение выпуска ведущий перечисляет несколько интересных релизов:
- PyTorch Lightning 1.5: появилась отказоустойчивая тренировка (восстановление после сбоев) и модуль Lightning Lite для работы с чистыми моделями PyTorch .
- Iris: открытый аналог Google Photos для тех, кто хочет хранить фото локально и иметь поиск по лицам и объектам .
- ARC Game: веб-игра на основе теста на интеллект Франсуа Шолле, где людям предлагается решать логические задачи. Янник Килчер признается, что «провалил тест Тьюринга», не справившись с одной из сложных задач .
Килчер также иронизирует над статьей в Fortune, утверждающей, что ИИ не разрушит корпоративную культуру, а наоборот — поднимет моральный дух сотрудников . Ссылаясь на отчет BCG, авторы заявляют, что 79% респондентов отметили рост морали после внедрения ИИ .
Янник в шутку предполагает, что эта статья сама написана искусственным интеллектом, чтобы заставить людей подчиняться . По его мнению, фразы вроде «генеральные директора должны помнить о преимуществах» звучат как завуалированная угроза от лица будущих машин-правителей .