# Янник Килчер о «журналистике гнева» и провале ИИ-оценки недвижимости в Zillow

Источник: https://www.youtube.com/watch?v=n622girLRNM
Канал: Yannic Kilcher
Опубликовано: 12.11.2021

---

В новом выпуске обзора новостей машинного обучения Янник Килчер (Yannic Kilcher) анализирует последние достижения технологических гигантов и исследовательских институтов. В центре внимания — универсальная модель Microsoft для обработки изображений и текстов, прорыв Meta в области тактильных сенсоров для роботов и запуск российской нейросети ruDALL-E.

## 📊 Инструментарий для анализа данных: Weights & Biases Tables
[[JUMP:0:15]]

Выпуск начинается с обзора функционала платформы Weights & Biases, а именно инструмента Tables [0:15]. По словам Янника Килчера, это интерактивный способ исследования не только результатов экспериментов, но и самих данных.

Ключевые возможности инструмента:

*   Включение в таблицы изображений, аудиофайлов, видео и масок предсказаний моделей [0:43].
*   Сравнение результатов различных моделей в рамках одной таблицы [0:57].
*   Вычисление метрик «на лету» (false positives, f1 score, AUC) с помощью специального синтаксиса [1:22].

Янник Килчер демонстрирует работу инструмента на примере набора данных с комментариями из Reddit [1:36]. С помощью фильтров он находит комментарии, в которых одновременно присутствуют эмоции радости и грусти [2:12], и анализирует уровень «печали» в различных сабреддитах. По наблюдениям ведущего, сабреддит о футболе (soccer) оказался на третьем месте по уровню грусти в его выборке [2:53].

## 🌐 Microsoft Turing Bletchley: универсальное понимание мира
[[JUMP:3:18]]

Microsoft представила модель Turing Bletchley — универсальное представление для изображений и текстов [3:32]. Название отсылает к Блетчли-парку, где Алан Тьюринг взламывал «Энигму» [3:46].

По аналогии с CLIP, эта модель объединяет модальности текста и изображений, но делает это сразу для множества языков [3:59]. Модель обучалась на парах «картинка-текст» из интернета с использованием двух целевых функций:

1.  Сближение представлений изображения и относящегося к нему текста [4:25].
2.  Сближение представлений разных текстов (на разных языках), описывающих одно и то же изображение [4:39].

Янник Килчер отмечает, что модель понимает рекламу Coca-Cola независимо от языка, распознает карты и справляется с OCR [4:53]. Она способна соотносить китайские иероглифы «Великая Китайская стена» с соответствующими фотографиями людей на фоне этой достопримечательности [5:20].

Ведущий критически замечает, что в демонстрационном интерфейсе Microsoft запросы ограничены предустановленными вариантами [5:47]. По его мнению, это сделано не ради «черри-пикинга», а чтобы пользователи не могли генерировать непристойный контент или извлекать изображения, защищенные авторским правом [6:00]. Также Килчер в шутку называет модель «ужасной», заметив, что в результатах поиска по запросу «Сон Гоку» затесался «Сон Гохан» [6:29].

## 🤖 Meta и создание искусственной кожи для ИИ
[[JUMP:6:40]]

Meta (бывшая Facebook) представила экосистему для тактильного восприятия роботов [6:40]. Проект включает в себя аппаратные и программные решения:

*   **Digit:** высокоточный сенсор прикосновений для кончиков пальцев, выпускаемый совместно с GelSite [6:54].
*   **ReSkin:** дешевая заменяемая эластичная «кожа» с магнитными датчиками [6:54].
*   **PyTouch:** библиотека на PyTorch для обработки тактильных данных [9:21].
*   **Tacto:** симулятор для обучения тактильному восприятию [9:21].

Янник Килчер подчеркивает важность ReSkin: это мягкий материал, позволяющий роботу получать обратную связь [7:21]. Это критически важно для таких задач, как захват черники, которую легко раздавить без контроля силы сжатия [7:34].

Технологическим прорывом, по словам ведущего, стала калибровка [7:48]. Обычно мягкие датчики требуют индивидуальной калибровки из-за особенностей производства. Meta применила метод самообучения (self-supervised technique), который позволяет сенсорам адаптироваться без ручной настройки [8:15]. Чертежи Digit были выложены в открытый доступ [8:54].

## 🎨 Аниме и роботы: от AnimeGAN до манипуляций в руках
[[JUMP:9:58]]

Обсуждение переходит к популярной модели AnimeGAN v2, которая переносит стиль аниме на реальные фотографии [9:58]. Янник Килчер хвалит экосистему за то, как быстро научная работа превращается в доступный инструмент: от оригинального кода на TensorFlow до реализации в PyTorch и удобного интерфейса на Hugging Face [10:39].

В области робототехники исследователи из MIT опубликовали работу о переориентации объектов в руке робота [11:36]. Система обучается в симуляции вращать предметы любой формы в нужное положение. Используется модель «учитель-ученик»:

*   **Учитель** имеет доступ к «привилегированным» данным (скорость движения пальцев и т.д.), которые есть только в симуляторе [12:28].
*   **Ученик** обучается у «учителя» в режиме обучения с учителем (supervised learning), имея доступ только к визуальным данным и положению суставов [12:40].

Это позволяет достичь высокой производительности даже на новых объектах в режиме zero-shot [12:55].

## ⚖️ Алгоритм гнева Facebook: журналистика против реальности
[[JUMP:13:08]]

Янник Килчер подробно разбирает статью в Washington Post о том, как алгоритм Facebook якобы способствовал распространению ненависти [13:08]. В статье утверждается, что Facebook присваивал эмоции «гнев» пять очков, в то время как обычному лайку — только одно [14:57].

Ведущий критикует подачу материала, называя её «низкопробной журналистикой» [16:43]. По мнению Килчера, Washington Post искажает контекст:

*   Рейтинг в 5 очков давался всем эмоциям (любовь, ха-ха, грусть, гнев), кроме лайка [15:11].
*   Логика разработчиков заключалась в том, что использование эмодзи требует двух кликов вместо одного, что означает более высокую вовлеченность пользователя [15:24].
*   Платформы часто завышают вес новых функций, чтобы стимулировать их использование [15:50].

Килчер полагает, что проблема сложнее, чем желание Марка Цукерберга «разозлить всех» ради прибыли [16:43]. Он призывает зрителей читать подобные статьи критически, отделяя журналистский фрейминг от реальных инженерных проблем рекомендательных систем [16:55].

## 🧬 ИИ в медицине и российская ruDALL-E
[[JUMP:17:07]]

Демис Хассабис объявил о запуске Isomorphic Labs — новой компании под зонтиком Alphabet [17:07]. Её цель — переосмыслить поиск лекарств с использованием подхода AI-first [17:23]. Хассабис станет генеральным директором новой компании, сохранив пост в DeepMind [17:37].

Sberbank AI выпустил ruDALL-E — российскую версию модели DALL-E от OpenAI [18:17]. Основные факты:

*   Выпущено две версии: на 1,3 млрд параметров (уже доступна) и на 12 млрд [18:30].
*   Модель работает в связке с российским CLIP и моделью супер-разрешения [18:44].
*   Код и модели выложены на GitHub [18:56].

Поскольку модель понимает только русский язык, в демо-версии на Hugging Face используется автоматический переводчик с английского [19:22]. Янник отмечает, что это затрудняет оценку: не всегда понятно, ошиблась ли нейросеть или подвел переводчик [19:34]. Ведущий подчеркивает, что бизнес-модель закрытых нейросетей недолговечна — как только публикуется статья, сообщество быстро воспроизводит результаты [20:15].

## 🖼️ Атаки на масштабирование и крах Zillow
[[JUMP:20:41]]

Янник Килчер обсуждает необычную атаку на системы ИИ через алгоритмы изменения размера изображений (image scaling attacks) [20:41]. Если подготовить изображение особым образом, то после уменьшения (downscaling) оно будет выглядеть совершенно иначе для нейросети [20:55].

Например, на входе может быть картинка, которая после уменьшения алгоритмом TensorFlow превращается в изображение собаки, хотя оригинал на него не похож [21:19]. По словам Килчера, это не свойство самого масштабирования, а следствие ошибок в реализациях библиотек (отсутствие правильного антиалиасинга) [22:10]. Из популярных библиотек только PIL (Pillow) справляется с задачей корректно [22:48].

Также в выпуске упоминается крах сервиса iBuying от компании Zillow [29:35]. Компания использовала ИИ для оценки стоимости домов, покупала их и планировала перепродавать. Однако алгоритм не учитывал нюансы, которые понятны местным риелторам [30:31]. В результате Zillow была вынуждена уволить 25% сотрудников и закрыть направление, так как дома продавались в убыток [29:53].

Килчер резюмирует, что это урок для ML-инженеров: нельзя просто «натравить ИИ на проблему» и ждать успеха без качественных данных и валидации [30:59].

## 🛠️ Полезные инструменты и «ИИ-пропаганда»
[[JUMP:31:38]]

В завершение выпуска ведущий перечисляет несколько интересных релизов:

*   **PyTorch Lightning 1.5:** появилась отказоустойчивая тренировка (восстановление после сбоев) и модуль Lightning Lite для работы с чистыми моделями PyTorch [31:38].
*   **Iris:** открытый аналог Google Photos для тех, кто хочет хранить фото локально и иметь поиск по лицам и объектам [33:39].
*   **ARC Game:** веб-игра на основе теста на интеллект Франсуа Шолле, где людям предлагается решать логические задачи. Янник Килчер признается, что «провалил тест Тьюринга», не справившись с одной из сложных задач [29:27].

Килчер также иронизирует над статьей в Fortune, утверждающей, что ИИ не разрушит корпоративную культуру, а наоборот — поднимет моральный дух сотрудников [35:38]. Ссылаясь на отчет BCG, авторы заявляют, что 79% респондентов отметили рост морали после внедрения ИИ [36:44].

Янник в шутку предполагает, что эта статья сама написана искусственным интеллектом, чтобы заставить людей подчиняться [36:56]. По его мнению, фразы вроде «генеральные директора должны помнить о преимуществах» звучат как завуалированная угроза от лица будущих машин-правителей [37:10].