Искусственная кожа от Meta и русский DALL-E: подробный обзор ML News от Янника Кильхера

Yannic Kilcher 20,4 тыс. 37 мин 5 мин 12.11.2021
Главное

В новом выпуске ML News ведущий Янник Кильхер (Yannic Kilcher) обсуждает ключевые релизы в мире машинного обучения за ноябрь 2021 года: от амбициозных мультимодальных моделей Microsoft до аппаратных новинок Meta. Особое внимание уделено инциденту с алгоритмами Facebook, провалу ИИ-стратегии компании Zillow и появлению «русского DALL-E».

🌐 Microsoft представляет Turing Bletchley: универсальный мост между языками и изображениями 3:18

Компания Microsoft анонсировала Turing Bletchley — универсальную модель представления изображений и языков . Название модели отсылает к проекту Turing (масштабные языковые модели Microsoft) и Блетчли-парку, где Алан Тьюринг взломал код «Энигмы» .

По своей сути Bletchley напоминает модель CLIP от OpenAI: она объединяет текстовую и визуальную модальности в едином векторном пространстве . Однако ключевым отличием является мультиязычность. Модель понимает отношения между изображениями и текстом на множестве языков одновременно.

Для обучения Microsoft собрала из интернета пары «изображение-текст» на разных языках. В процессе обучения использовались две основные функции потерь:

  1. Выравнивание представления изображения с соответствующим ему текстом.
  2. Сближение представлений разных текстов (на разных языках), описывающих одно и то же изображение .

Благодаря этому концепты (например, «реклама Coca-Cola» или «Великая китайская стена») группируются в одном кластере вне зависимости от того, выражены ли они картинкой или текстом на английском, китайском или любом другом языке . Модель демонстрирует способности к OCR (распознаванию текста на фото) и пониманию таких объектов, как карты .

Янник Кильхер отмечает любопытную деталь в официальном демо: все поисковые запросы жестко заданы заранее . По его мнению, это сделано не ради «черрипикинга» результатов, а из соображений безопасности и юридической чистоты, чтобы пользователи не могли извлечь из базы данных NSFW-контент или изображения, защищенные авторским правом . При этом эксперт иронично замечает «фатальный изъян» модели: в результатах выдачи по запросу «Сон Гоку» закралось изображение Сон Гохана .

🧤 Meta и «искусственная кожа»: ИИ учится осязать 6:41

Подразделение Meta AI (ранее Facebook AI) представило масштабную экосистему для тактильного восприятия . В неё входят:

Янник Кильхер подчеркивает, что это не просто «железо», а комплексный ИИ-продукт. Одной из главных проблем таких сенсоров является их неоднородность: мягкий материал невозможно производить с идеальной точностью, поэтому каждый датчик нужно калибровать индивидуально. Meta решила эту проблему с помощью методов самообучения (self-supervised learning), что значительно упростило эксплуатацию .

Дополнительно компания выпустила библиотеку PyTouch для обработки тактильных данных и симулятор Tacto . Весь дизайн устройств и программный код открыты для сообщества.

⚖️ Гневный эмодзи против «лайка»: разбор алгоритмов Facebook 13:08

Янник Кильхер подробно анализирует статью Washington Post, в которой утверждается, что алгоритмы Facebook намеренно поощряли гнев и дезинформацию . Журналисты выяснили, что в системе ранжирования «лайк» приносил посту 1 балл, а реакция «возмутительно» (angry emoji) — сразу 5 баллов .

Однако Янник призывает читать критически и обращать внимание на детали в конце текста. По его мнению, статья излишне драматизирована:

По мнению Кильхера, Washington Post занимается «сомнительной журналистикой», выставляя сложную техническую проблему оптимизации как осознанное злодейство Марка Цукерберга .

🖼️ «Русский DALL-E» и атаки на ИИ через изменение размера фото 18:17

Сбер (Sberbank AI) выпустил ruDALL-E — российскую версию знаменитой модели генерации изображений от OpenAI . Команда представила две версии: на 1,3 млрд и на 12 млрд параметров (последнюю планировалось открыть позже).

Янник отмечает, что Сбер проделал огромную инженерную работу, выпустив код на GitHub и демо на Hugging Face . Несмотря на то что модель понимает только русский язык (в демо встроен переводчик), результаты выглядят впечатляюще. По мнению ведущего, бизнес-модель «не выпускать веса моделей», которую практикует OpenAI, долго не продержится: как только публикуется научный отчет, другие сообщества тут же воспроизводят результаты .

В блоке безопасности Кильхер обсудил необычный тип атак — Image Scaling Attacks . Это не атака на саму нейросеть, а эксплуатация алгоритмов изменения размера изображений.

  1. Картина-донор (например, изображение пейзажа) обрабатывается так, чтобы при уменьшении до нужного нейросети размера она превращалась в совершенно другой объект (например, собаку) .
  2. Это происходит из-за отсутствия «антиалиасинга» (сглаживания) в популярных библиотеках (OpenCV, TensorFlow).
  3. Только библиотека PIL (Pillow) продемонстрировала корректную работу, в то время как другие позволяют буквально «спрятать» одну картинку в другой .

🏠 Крах Zillow и корпоративный «ИИ-оптимизм» 29:41

Громким провалом месяца стала история компании Zillow, которая была вынуждена уволить 25% персонала и закрыть бизнес по перепродаже домов . Алгоритм ИИ оценивал стоимость недвижимости и принимал решения о покупке, но в итоге компания начала покупать дома дороже, чем могла продать .

Янник считает это важным уроком: нельзя просто «бросить ИИ на проблему» и ждать успеха. Оценка недвижимости — это сфера, где локальный риелтор всегда обладает большей контекстной информацией, чем глобальный алгоритм, работающий на скудных метаданных из интернета . В то же время конкуренты Zillow продолжают успешно работать, что указывает скорее на управленческую ошибку и плохую валидацию моделей внутри конкретной компании, а не на немощность технологии в целом .

В завершение выпуска Янник прокомментировал статью в Fortune о том, что ИИ «повышает моральный дух сотрудников» . Согласно опросу Boston Consulting Group, 79% респондентов заявили об улучшении атмосферы в коллективе после внедрения ИИ . Янник иронично предположил, что сама эта статья написана искусственным интеллектом, чтобы заставить людей быть более лояльными: «Это звучит так, будто ИИ-авторы говорят: „Смотри, человек, если ты будешь использовать нас, мы дадим тебе печеньку, а если нет — помни, что СЕО должны внедрять нас ради прибыли“» .

💬 Цитаты

«Как только вы публикуете статью о своей модели, другие люди обязательно воспроизведут ваши усилия, что очень круто для всех нас.»

Янник Кильхер 20:28

«Два дома могут выглядеть одинаково в метаданных, но местный риелтор увидит разницу, которую глобальный алгоритм не заметит.»

Янник Кильхер 30:45
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Zero-shot performance
Способность ИИ-модели выполнять задачу, для которой она не обучалась специально, используя накопленные общие знания.
Embedding space
Математическое пространство, в котором объекты (слова, картинки) представлены в виде векторов, где близкие по смыслу понятия находятся рядом.
Image Scaling Attack
Метод манипуляции изображением, при котором оно выглядит по-разному в исходном разрешении и после уменьшения размера.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2021 Microsoft анонсирует Turing Bletchley и представляет обновленный сервис OpenAI в Azure.
  2. Ноябрь 2021 Zillow объявляет о прекращении работы сервиса Offers и крупных убытках.
  3. Ноябрь 2021 SberAI публикует веса модели ruDALL-E мощностью 1.3 млрд параметров.
⚖️ Другая сторона
Искусственный интеллект Turing Bletchley ruDALL-E Meta Reskin Zillow AI Yannic Kilcher