Янник Килчер о «журналистике гнева» и провале ИИ-оценки недвижимости в Zillow

Yannic Kilcher 20,4 тыс. 37 мин 6 мин 12.11.2021
Главное

В новом выпуске обзора новостей машинного обучения Янник Килчер (Yannic Kilcher) анализирует последние достижения технологических гигантов и исследовательских институтов. В центре внимания — универсальная модель Microsoft для обработки изображений и текстов, прорыв Meta в области тактильных сенсоров для роботов и запуск российской нейросети ruDALL-E.

📊 Инструментарий для анализа данных: Weights & Biases Tables 0:15

Выпуск начинается с обзора функционала платформы Weights & Biases, а именно инструмента Tables . По словам Янника Килчера, это интерактивный способ исследования не только результатов экспериментов, но и самих данных.

Ключевые возможности инструмента:

Янник Килчер демонстрирует работу инструмента на примере набора данных с комментариями из Reddit . С помощью фильтров он находит комментарии, в которых одновременно присутствуют эмоции радости и грусти , и анализирует уровень «печали» в различных сабреддитах. По наблюдениям ведущего, сабреддит о футболе (soccer) оказался на третьем месте по уровню грусти в его выборке .

🌐 Microsoft Turing Bletchley: универсальное понимание мира 3:18

Microsoft представила модель Turing Bletchley — универсальное представление для изображений и текстов . Название отсылает к Блетчли-парку, где Алан Тьюринг взламывал «Энигму» .

По аналогии с CLIP, эта модель объединяет модальности текста и изображений, но делает это сразу для множества языков . Модель обучалась на парах «картинка-текст» из интернета с использованием двух целевых функций:

  1. Сближение представлений изображения и относящегося к нему текста .
  2. Сближение представлений разных текстов (на разных языках), описывающих одно и то же изображение .

Янник Килчер отмечает, что модель понимает рекламу Coca-Cola независимо от языка, распознает карты и справляется с OCR . Она способна соотносить китайские иероглифы «Великая Китайская стена» с соответствующими фотографиями людей на фоне этой достопримечательности .

Ведущий критически замечает, что в демонстрационном интерфейсе Microsoft запросы ограничены предустановленными вариантами . По его мнению, это сделано не ради «черри-пикинга», а чтобы пользователи не могли генерировать непристойный контент или извлекать изображения, защищенные авторским правом . Также Килчер в шутку называет модель «ужасной», заметив, что в результатах поиска по запросу «Сон Гоку» затесался «Сон Гохан» .

🤖 Meta и создание искусственной кожи для ИИ 6:40

Meta (бывшая Facebook) представила экосистему для тактильного восприятия роботов . Проект включает в себя аппаратные и программные решения:

Янник Килчер подчеркивает важность ReSkin: это мягкий материал, позволяющий роботу получать обратную связь . Это критически важно для таких задач, как захват черники, которую легко раздавить без контроля силы сжатия .

Технологическим прорывом, по словам ведущего, стала калибровка . Обычно мягкие датчики требуют индивидуальной калибровки из-за особенностей производства. Meta применила метод самообучения (self-supervised technique), который позволяет сенсорам адаптироваться без ручной настройки . Чертежи Digit были выложены в открытый доступ .

🎨 Аниме и роботы: от AnimeGAN до манипуляций в руках 9:58

Обсуждение переходит к популярной модели AnimeGAN v2, которая переносит стиль аниме на реальные фотографии . Янник Килчер хвалит экосистему за то, как быстро научная работа превращается в доступный инструмент: от оригинального кода на TensorFlow до реализации в PyTorch и удобного интерфейса на Hugging Face .

В области робототехники исследователи из MIT опубликовали работу о переориентации объектов в руке робота . Система обучается в симуляции вращать предметы любой формы в нужное положение. Используется модель «учитель-ученик»:

Это позволяет достичь высокой производительности даже на новых объектах в режиме zero-shot .

⚖️ Алгоритм гнева Facebook: журналистика против реальности 13:08

Янник Килчер подробно разбирает статью в Washington Post о том, как алгоритм Facebook якобы способствовал распространению ненависти . В статье утверждается, что Facebook присваивал эмоции «гнев» пять очков, в то время как обычному лайку — только одно .

Ведущий критикует подачу материала, называя её «низкопробной журналистикой» . По мнению Килчера, Washington Post искажает контекст:

Килчер полагает, что проблема сложнее, чем желание Марка Цукерберга «разозлить всех» ради прибыли . Он призывает зрителей читать подобные статьи критически, отделяя журналистский фрейминг от реальных инженерных проблем рекомендательных систем .

🧬 ИИ в медицине и российская ruDALL-E 17:07

Демис Хассабис объявил о запуске Isomorphic Labs — новой компании под зонтиком Alphabet . Её цель — переосмыслить поиск лекарств с использованием подхода AI-first . Хассабис станет генеральным директором новой компании, сохранив пост в DeepMind .

Sberbank AI выпустил ruDALL-E — российскую версию модели DALL-E от OpenAI . Основные факты:

Поскольку модель понимает только русский язык, в демо-версии на Hugging Face используется автоматический переводчик с английского . Янник отмечает, что это затрудняет оценку: не всегда понятно, ошиблась ли нейросеть или подвел переводчик . Ведущий подчеркивает, что бизнес-модель закрытых нейросетей недолговечна — как только публикуется статья, сообщество быстро воспроизводит результаты .

🖼️ Атаки на масштабирование и крах Zillow 20:41

Янник Килчер обсуждает необычную атаку на системы ИИ через алгоритмы изменения размера изображений (image scaling attacks) . Если подготовить изображение особым образом, то после уменьшения (downscaling) оно будет выглядеть совершенно иначе для нейросети .

Например, на входе может быть картинка, которая после уменьшения алгоритмом TensorFlow превращается в изображение собаки, хотя оригинал на него не похож . По словам Килчера, это не свойство самого масштабирования, а следствие ошибок в реализациях библиотек (отсутствие правильного антиалиасинга) . Из популярных библиотек только PIL (Pillow) справляется с задачей корректно .

Также в выпуске упоминается крах сервиса iBuying от компании Zillow . Компания использовала ИИ для оценки стоимости домов, покупала их и планировала перепродавать. Однако алгоритм не учитывал нюансы, которые понятны местным риелторам . В результате Zillow была вынуждена уволить 25% сотрудников и закрыть направление, так как дома продавались в убыток .

Килчер резюмирует, что это урок для ML-инженеров: нельзя просто «натравить ИИ на проблему» и ждать успеха без качественных данных и валидации .

🛠️ Полезные инструменты и «ИИ-пропаганда» 31:38

В завершение выпуска ведущий перечисляет несколько интересных релизов:

Килчер также иронизирует над статьей в Fortune, утверждающей, что ИИ не разрушит корпоративную культуру, а наоборот — поднимет моральный дух сотрудников . Ссылаясь на отчет BCG, авторы заявляют, что 79% респондентов отметили рост морали после внедрения ИИ .

Янник в шутку предполагает, что эта статья сама написана искусственным интеллектом, чтобы заставить людей подчиняться . По его мнению, фразы вроде «генеральные директора должны помнить о преимуществах» звучат как завуалированная угроза от лица будущих машин-правителей .

💬 Цитаты

«Бизнес-модель, основанная на том, чтобы не выпускать свои модели, долго не продержится. Как только вы публикуете статью, другие люди обязательно воспроизведут ваши усилия.»

Янник Килчер 20:15

«Это кажется уроком не в том, чего ИИ не может сделать, а в том, что нельзя просто бросить ИИ на проблему и ожидать хороших результатов.»

Янник Килчер 31:12
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Zero-shot
Способность модели выполнять задачу, для которой она не обучалась специально.
OCR
Технология оптического распознавания символов (текста на изображениях).
GAN
Генеративно-состязательная сеть, тип нейросети для создания контента.
Self-supervised learning
Метод обучения ИИ, при котором система сама извлекает сигналы для обучения из данных без участия человека.
Anti-aliasing
Технология сглаживания краев изображения при изменении его размера.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2021 Выпуск PyTorch Lightning 1.5
  2. Ноябрь 2021 Запуск Isomorphic Labs компанией Alphabet
  3. Ноябрь 2021 Публикация статьи Washington Post об алгоритмах Facebook
⚖️ Другая сторона
Искусственный интеллект Microsoft Turing Bletchley ruDALL-E Meta Digit PyTorch Lightning Zillow