Янник Килчер о «журналистике гнева» и провале ИИ-оценки недвижимости в Zillow

В новом выпуске обзора новостей машинного обучения Янник Килчер (Yannic Kilcher) анализирует последние достижения технологических гигантов и исследовательских институтов. В центре внимания — универсальная модель Microsoft для обработки изображений и текстов, прорыв Meta в области тактильных сенсоров для роботов и запуск российской нейросети ruDALL-E.

📊 Инструментарий для анализа данных: Weights & Biases Tables 0:15

Выпуск начинается с обзора функционала платформы Weights & Biases, а именно инструмента Tables . По словам Янника Килчера, это интерактивный способ исследования не только результатов экспериментов, но и самих данных.

Ключевые возможности инструмента:

Включение в таблицы изображений, аудиофайлов, видео и масок предсказаний моделей .
Сравнение результатов различных моделей в рамках одной таблицы .
Вычисление метрик «на лету» (false positives, f1 score, AUC) с помощью специального синтаксиса .

Янник Килчер демонстрирует работу инструмента на примере набора данных с комментариями из Reddit . С помощью фильтров он находит комментарии, в которых одновременно присутствуют эмоции радости и грусти , и анализирует уровень «печали» в различных сабреддитах. По наблюдениям ведущего, сабреддит о футболе (soccer) оказался на третьем месте по уровню грусти в его выборке .

🌐 Microsoft Turing Bletchley: универсальное понимание мира 3:18

Microsoft представила модель Turing Bletchley — универсальное представление для изображений и текстов . Название отсылает к Блетчли-парку, где Алан Тьюринг взламывал «Энигму» .

По аналогии с CLIP, эта модель объединяет модальности текста и изображений, но делает это сразу для множества языков . Модель обучалась на парах «картинка-текст» из интернета с использованием двух целевых функций:

Сближение представлений изображения и относящегося к нему текста .
Сближение представлений разных текстов (на разных языках), описывающих одно и то же изображение .

Янник Килчер отмечает, что модель понимает рекламу Coca-Cola независимо от языка, распознает карты и справляется с OCR . Она способна соотносить китайские иероглифы «Великая Китайская стена» с соответствующими фотографиями людей на фоне этой достопримечательности .

Ведущий критически замечает, что в демонстрационном интерфейсе Microsoft запросы ограничены предустановленными вариантами . По его мнению, это сделано не ради «черри-пикинга», а чтобы пользователи не могли генерировать непристойный контент или извлекать изображения, защищенные авторским правом . Также Килчер в шутку называет модель «ужасной», заметив, что в результатах поиска по запросу «Сон Гоку» затесался «Сон Гохан» .

🤖 Meta и создание искусственной кожи для ИИ 6:40

Meta (бывшая Facebook) представила экосистему для тактильного восприятия роботов . Проект включает в себя аппаратные и программные решения:

Digit: высокоточный сенсор прикосновений для кончиков пальцев, выпускаемый совместно с GelSite .
ReSkin: дешевая заменяемая эластичная «кожа» с магнитными датчиками .
PyTouch: библиотека на PyTorch для обработки тактильных данных .
Tacto: симулятор для обучения тактильному восприятию .

Янник Килчер подчеркивает важность ReSkin: это мягкий материал, позволяющий роботу получать обратную связь . Это критически важно для таких задач, как захват черники, которую легко раздавить без контроля силы сжатия .

Технологическим прорывом, по словам ведущего, стала калибровка . Обычно мягкие датчики требуют индивидуальной калибровки из-за особенностей производства. Meta применила метод самообучения (self-supervised technique), который позволяет сенсорам адаптироваться без ручной настройки . Чертежи Digit были выложены в открытый доступ .

🎨 Аниме и роботы: от AnimeGAN до манипуляций в руках 9:58

Обсуждение переходит к популярной модели AnimeGAN v2, которая переносит стиль аниме на реальные фотографии . Янник Килчер хвалит экосистему за то, как быстро научная работа превращается в доступный инструмент: от оригинального кода на TensorFlow до реализации в PyTorch и удобного интерфейса на Hugging Face .

В области робототехники исследователи из MIT опубликовали работу о переориентации объектов в руке робота . Система обучается в симуляции вращать предметы любой формы в нужное положение. Используется модель «учитель-ученик»:

Учитель имеет доступ к «привилегированным» данным (скорость движения пальцев и т.д.), которые есть только в симуляторе .
Ученик обучается у «учителя» в режиме обучения с учителем (supervised learning), имея доступ только к визуальным данным и положению суставов .

Это позволяет достичь высокой производительности даже на новых объектах в режиме zero-shot .

⚖️ Алгоритм гнева Facebook: журналистика против реальности 13:08

Янник Килчер подробно разбирает статью в Washington Post о том, как алгоритм Facebook якобы способствовал распространению ненависти . В статье утверждается, что Facebook присваивал эмоции «гнев» пять очков, в то время как обычному лайку — только одно .

Ведущий критикует подачу материала, называя её «низкопробной журналистикой» . По мнению Килчера, Washington Post искажает контекст:

Рейтинг в 5 очков давался всем эмоциям (любовь, ха-ха, грусть, гнев), кроме лайка .
Логика разработчиков заключалась в том, что использование эмодзи требует двух кликов вместо одного, что означает более высокую вовлеченность пользователя .
Платформы часто завышают вес новых функций, чтобы стимулировать их использование .

Килчер полагает, что проблема сложнее, чем желание Марка Цукерберга «разозлить всех» ради прибыли . Он призывает зрителей читать подобные статьи критически, отделяя журналистский фрейминг от реальных инженерных проблем рекомендательных систем .

🧬 ИИ в медицине и российская ruDALL-E 17:07

Демис Хассабис объявил о запуске Isomorphic Labs — новой компании под зонтиком Alphabet . Её цель — переосмыслить поиск лекарств с использованием подхода AI-first . Хассабис станет генеральным директором новой компании, сохранив пост в DeepMind .

Sberbank AI выпустил ruDALL-E — российскую версию модели DALL-E от OpenAI . Основные факты:

Выпущено две версии: на 1,3 млрд параметров (уже доступна) и на 12 млрд .
Модель работает в связке с российским CLIP и моделью супер-разрешения .
Код и модели выложены на GitHub .

Поскольку модель понимает только русский язык, в демо-версии на Hugging Face используется автоматический переводчик с английского . Янник отмечает, что это затрудняет оценку: не всегда понятно, ошиблась ли нейросеть или подвел переводчик . Ведущий подчеркивает, что бизнес-модель закрытых нейросетей недолговечна — как только публикуется статья, сообщество быстро воспроизводит результаты .

🖼️ Атаки на масштабирование и крах Zillow 20:41

Янник Килчер обсуждает необычную атаку на системы ИИ через алгоритмы изменения размера изображений (image scaling attacks) . Если подготовить изображение особым образом, то после уменьшения (downscaling) оно будет выглядеть совершенно иначе для нейросети .

Например, на входе может быть картинка, которая после уменьшения алгоритмом TensorFlow превращается в изображение собаки, хотя оригинал на него не похож . По словам Килчера, это не свойство самого масштабирования, а следствие ошибок в реализациях библиотек (отсутствие правильного антиалиасинга) . Из популярных библиотек только PIL (Pillow) справляется с задачей корректно .

Также в выпуске упоминается крах сервиса iBuying от компании Zillow . Компания использовала ИИ для оценки стоимости домов, покупала их и планировала перепродавать. Однако алгоритм не учитывал нюансы, которые понятны местным риелторам . В результате Zillow была вынуждена уволить 25% сотрудников и закрыть направление, так как дома продавались в убыток .

Килчер резюмирует, что это урок для ML-инженеров: нельзя просто «натравить ИИ на проблему» и ждать успеха без качественных данных и валидации .

🛠️ Полезные инструменты и «ИИ-пропаганда» 31:38

В завершение выпуска ведущий перечисляет несколько интересных релизов:

PyTorch Lightning 1.5: появилась отказоустойчивая тренировка (восстановление после сбоев) и модуль Lightning Lite для работы с чистыми моделями PyTorch .
Iris: открытый аналог Google Photos для тех, кто хочет хранить фото локально и иметь поиск по лицам и объектам .
ARC Game: веб-игра на основе теста на интеллект Франсуа Шолле, где людям предлагается решать логические задачи. Янник Килчер признается, что «провалил тест Тьюринга», не справившись с одной из сложных задач .

Килчер также иронизирует над статьей в Fortune, утверждающей, что ИИ не разрушит корпоративную культуру, а наоборот — поднимет моральный дух сотрудников . Ссылаясь на отчет BCG, авторы заявляют, что 79% респондентов отметили рост морали после внедрения ИИ .

Янник в шутку предполагает, что эта статья сама написана искусственным интеллектом, чтобы заставить людей подчиняться . По его мнению, фразы вроде «генеральные директора должны помнить о преимуществах» звучат как завуалированная угроза от лица будущих машин-правителей .