Искусственная кожа от Meta и русский DALL-E: подробный обзор ML News от Янника Кильхера

В новом выпуске ML News ведущий Янник Кильхер (Yannic Kilcher) обсуждает ключевые релизы в мире машинного обучения за ноябрь 2021 года: от амбициозных мультимодальных моделей Microsoft до аппаратных новинок Meta. Особое внимание уделено инциденту с алгоритмами Facebook, провалу ИИ-стратегии компании Zillow и появлению «русского DALL-E».

🌐 Microsoft представляет Turing Bletchley: универсальный мост между языками и изображениями 3:18

Компания Microsoft анонсировала Turing Bletchley — универсальную модель представления изображений и языков . Название модели отсылает к проекту Turing (масштабные языковые модели Microsoft) и Блетчли-парку, где Алан Тьюринг взломал код «Энигмы» .

По своей сути Bletchley напоминает модель CLIP от OpenAI: она объединяет текстовую и визуальную модальности в едином векторном пространстве . Однако ключевым отличием является мультиязычность. Модель понимает отношения между изображениями и текстом на множестве языков одновременно.

Для обучения Microsoft собрала из интернета пары «изображение-текст» на разных языках. В процессе обучения использовались две основные функции потерь:

Выравнивание представления изображения с соответствующим ему текстом.
Сближение представлений разных текстов (на разных языках), описывающих одно и то же изображение .

Благодаря этому концепты (например, «реклама Coca-Cola» или «Великая китайская стена») группируются в одном кластере вне зависимости от того, выражены ли они картинкой или текстом на английском, китайском или любом другом языке . Модель демонстрирует способности к OCR (распознаванию текста на фото) и пониманию таких объектов, как карты .

Янник Кильхер отмечает любопытную деталь в официальном демо: все поисковые запросы жестко заданы заранее . По его мнению, это сделано не ради «черрипикинга» результатов, а из соображений безопасности и юридической чистоты, чтобы пользователи не могли извлечь из базы данных NSFW-контент или изображения, защищенные авторским правом . При этом эксперт иронично замечает «фатальный изъян» модели: в результатах выдачи по запросу «Сон Гоку» закралось изображение Сон Гохана .

🧤 Meta и «искусственная кожа»: ИИ учится осязать 6:41

Подразделение Meta AI (ранее Facebook AI) представило масштабную экосистему для тактильного восприятия . В неё входят:

Digit — коммерчески доступное устройство для сенсорного восприятия касаний, разработанное в партнерстве с GelSight . Это высокоточный датчик, способный различать мельчайшие детали поверхности объекта .
Reskin — заменяемая, дешевая «тактильная кожа». Это мягкий материал, который позволяет роботам получать обратную связь при манипуляциях с хрупкими предметами, например, ягодами голубики .

Янник Кильхер подчеркивает, что это не просто «железо», а комплексный ИИ-продукт. Одной из главных проблем таких сенсоров является их неоднородность: мягкий материал невозможно производить с идеальной точностью, поэтому каждый датчик нужно калибровать индивидуально. Meta решила эту проблему с помощью методов самообучения (self-supervised learning), что значительно упростило эксплуатацию .

Дополнительно компания выпустила библиотеку PyTouch для обработки тактильных данных и симулятор Tacto . Весь дизайн устройств и программный код открыты для сообщества.

⚖️ Гневный эмодзи против «лайка»: разбор алгоритмов Facebook 13:08

Янник Кильхер подробно анализирует статью Washington Post, в которой утверждается, что алгоритмы Facebook намеренно поощряли гнев и дезинформацию . Журналисты выяснили, что в системе ранжирования «лайк» приносил посту 1 балл, а реакция «возмутительно» (angry emoji) — сразу 5 баллов .

Однако Янник призывает читать критически и обращать внимание на детали в конце текста. По его мнению, статья излишне драматизирована:

Ведущий утверждает, что Facebook повысил вес всех эмодзи (сердце, смех, гнев и т.д.), кроме обычного лайка, а не только «гнева» .
Логика разработчиков была простой: клик по лайку делается в одно действие, а выбор эмодзи требует двух кликов. Это считается более глубоким вовлечением пользователя .
Янник сравнивает это с политикой YouTube, который часто продвигает новые функции (например, Shorts или опросы), искусственно завышая их вес в алгоритмах для привлечения внимания пользователей .

По мнению Кильхера, Washington Post занимается «сомнительной журналистикой», выставляя сложную техническую проблему оптимизации как осознанное злодейство Марка Цукерберга .

🖼️ «Русский DALL-E» и атаки на ИИ через изменение размера фото 18:17

Сбер (Sberbank AI) выпустил ruDALL-E — российскую версию знаменитой модели генерации изображений от OpenAI . Команда представила две версии: на 1,3 млрд и на 12 млрд параметров (последнюю планировалось открыть позже).

Янник отмечает, что Сбер проделал огромную инженерную работу, выпустив код на GitHub и демо на Hugging Face . Несмотря на то что модель понимает только русский язык (в демо встроен переводчик), результаты выглядят впечатляюще. По мнению ведущего, бизнес-модель «не выпускать веса моделей», которую практикует OpenAI, долго не продержится: как только публикуется научный отчет, другие сообщества тут же воспроизводят результаты .

В блоке безопасности Кильхер обсудил необычный тип атак — Image Scaling Attacks . Это не атака на саму нейросеть, а эксплуатация алгоритмов изменения размера изображений.

Картина-донор (например, изображение пейзажа) обрабатывается так, чтобы при уменьшении до нужного нейросети размера она превращалась в совершенно другой объект (например, собаку) .
Это происходит из-за отсутствия «антиалиасинга» (сглаживания) в популярных библиотеках (OpenCV, TensorFlow).
Только библиотека PIL (Pillow) продемонстрировала корректную работу, в то время как другие позволяют буквально «спрятать» одну картинку в другой .

🏠 Крах Zillow и корпоративный «ИИ-оптимизм» 29:41

Громким провалом месяца стала история компании Zillow, которая была вынуждена уволить 25% персонала и закрыть бизнес по перепродаже домов . Алгоритм ИИ оценивал стоимость недвижимости и принимал решения о покупке, но в итоге компания начала покупать дома дороже, чем могла продать .

Янник считает это важным уроком: нельзя просто «бросить ИИ на проблему» и ждать успеха. Оценка недвижимости — это сфера, где локальный риелтор всегда обладает большей контекстной информацией, чем глобальный алгоритм, работающий на скудных метаданных из интернета . В то же время конкуренты Zillow продолжают успешно работать, что указывает скорее на управленческую ошибку и плохую валидацию моделей внутри конкретной компании, а не на немощность технологии в целом .

В завершение выпуска Янник прокомментировал статью в Fortune о том, что ИИ «повышает моральный дух сотрудников» . Согласно опросу Boston Consulting Group, 79% респондентов заявили об улучшении атмосферы в коллективе после внедрения ИИ . Янник иронично предположил, что сама эта статья написана искусственным интеллектом, чтобы заставить людей быть более лояльными: «Это звучит так, будто ИИ-авторы говорят: „Смотри, человек, если ты будешь использовать нас, мы дадим тебе печеньку, а если нет — помни, что СЕО должны внедрять нас ради прибыли“» .