# Искусственная кожа от Meta и русский DALL-E: подробный обзор ML News от Янника Кильхера

Источник: https://www.youtube.com/watch?v=n622girLRNM
Канал: Yannic Kilcher
Опубликовано: 12.11.2021

---

В новом выпуске ML News ведущий Янник Кильхер (Yannic Kilcher) обсуждает ключевые релизы в мире машинного обучения за ноябрь 2021 года: от амбициозных мультимодальных моделей Microsoft до аппаратных новинок Meta. Особое внимание уделено инциденту с алгоритмами Facebook, провалу ИИ-стратегии компании Zillow и появлению «русского DALL-E».

## 🌐 Microsoft представляет Turing Bletchley: универсальный мост между языками и изображениями
[[JUMP:3:18]]

Компания Microsoft анонсировала Turing Bletchley — универсальную модель представления изображений и языков [3:32]. Название модели отсылает к проекту Turing (масштабные языковые модели Microsoft) и Блетчли-парку, где Алан Тьюринг взломал код «Энигмы» [3:46].

По своей сути Bletchley напоминает модель CLIP от OpenAI: она объединяет текстовую и визуальную модальности в едином векторном пространстве [3:59]. Однако ключевым отличием является мультиязычность. Модель понимает отношения между изображениями и текстом на множестве языков одновременно.

Для обучения Microsoft собрала из интернета пары «изображение-текст» на разных языках. В процессе обучения использовались две основные функции потерь:

1. Выравнивание представления изображения с соответствующим ему текстом.
2. Сближение представлений разных текстов (на разных языках), описывающих одно и то же изображение [4:25].

Благодаря этому концепты (например, «реклама Coca-Cola» или «Великая китайская стена») группируются в одном кластере вне зависимости от того, выражены ли они картинкой или текстом на английском, китайском или любом другом языке [4:39]. Модель демонстрирует способности к OCR (распознаванию текста на фото) и пониманию таких объектов, как карты [4:53].

Янник Кильхер отмечает любопытную деталь в официальном демо: все поисковые запросы жестко заданы заранее [5:47]. По его мнению, это сделано не ради «черрипикинга» результатов, а из соображений безопасности и юридической чистоты, чтобы пользователи не могли извлечь из базы данных NSFW-контент или изображения, защищенные авторским правом [6:00]. При этом эксперт иронично замечает «фатальный изъян» модели: в результатах выдачи по запросу «Сон Гоку» закралось изображение Сон Гохана [6:29].

## 🧤 Meta и «искусственная кожа»: ИИ учится осязать
[[JUMP:6:41]]

Подразделение Meta AI (ранее Facebook AI) представило масштабную экосистему для тактильного восприятия [6:41]. В неё входят:

*   **Digit** — коммерчески доступное устройство для сенсорного восприятия касаний, разработанное в партнерстве с GelSight [6:54]. Это высокоточный датчик, способный различать мельчайшие детали поверхности объекта [9:08].
*   **Reskin** — заменяемая, дешевая «тактильная кожа». Это мягкий материал, который позволяет роботам получать обратную связь при манипуляциях с хрупкими предметами, например, ягодами голубики [7:21].

Янник Кильхер подчеркивает, что это не просто «железо», а комплексный ИИ-продукт. Одной из главных проблем таких сенсоров является их неоднородность: мягкий материал невозможно производить с идеальной точностью, поэтому каждый датчик нужно калибровать индивидуально. Meta решила эту проблему с помощью методов самообучения (self-supervised learning), что значительно упростило эксплуатацию [8:15]. 

Дополнительно компания выпустила библиотеку **PyTouch** для обработки тактильных данных и симулятор **Tacto** [9:21]. Весь дизайн устройств и программный код открыты для сообщества.

## ⚖️ Гневный эмодзи против «лайка»: разбор алгоритмов Facebook
[[JUMP:13:08]]

Янник Кильхер подробно анализирует статью Washington Post, в которой утверждается, что алгоритмы Facebook намеренно поощряли гнев и дезинформацию [13:08]. Журналисты выяснили, что в системе ранжирования «лайк» приносил посту 1 балл, а реакция «возмутительно» (angry emoji) — сразу 5 баллов [13:21].

Однако Янник призывает читать критически и обращать внимание на детали в конце текста. По его мнению, статья излишне драматизирована:

*   Ведущий утверждает, что Facebook повысил вес всех эмодзи (сердце, смех, гнев и т.д.), кроме обычного лайка, а не только «гнева» [15:11].
*   Логика разработчиков была простой: клик по лайку делается в одно действие, а выбор эмодзи требует двух кликов. Это считается более глубоким вовлечением пользователя [15:37]. 
*   Янник сравнивает это с политикой YouTube, который часто продвигает новые функции (например, Shorts или опросы), искусственно завышая их вес в алгоритмах для привлечения внимания пользователей [15:50].

По мнению Кильхера, Washington Post занимается «сомнительной журналистикой», выставляя сложную техническую проблему оптимизации как осознанное злодейство Марка Цукерберга [16:43].

## 🖼️ «Русский DALL-E» и атаки на ИИ через изменение размера фото
[[JUMP:18:17]]

Сбер (Sberbank AI) выпустил **ruDALL-E** — российскую версию знаменитой модели генерации изображений от OpenAI [18:17]. Команда представила две версии: на 1,3 млрд и на 12 млрд параметров (последнюю планировалось открыть позже). 

Янник отмечает, что Сбер проделал огромную инженерную работу, выпустив код на GitHub и демо на Hugging Face [18:44]. Несмотря на то что модель понимает только русский язык (в демо встроен переводчик), результаты выглядят впечатляюще. По мнению ведущего, бизнес-модель «не выпускать веса моделей», которую практикует OpenAI, долго не продержится: как только публикуется научный отчет, другие сообщества тут же воспроизводят результаты [20:28].

В блоке безопасности Кильхер обсудил необычный тип атак — **Image Scaling Attacks** [20:41]. Это не атака на саму нейросеть, а эксплуатация алгоритмов изменения размера изображений.

1. Картина-донор (например, изображение пейзажа) обрабатывается так, чтобы при уменьшении до нужного нейросети размера она превращалась в совершенно другой объект (например, собаку) [21:07].
2. Это происходит из-за отсутствия «антиалиасинга» (сглаживания) в популярных библиотеках (OpenCV, TensorFlow).
3. Только библиотека **PIL (Pillow)** продемонстрировала корректную работу, в то время как другие позволяют буквально «спрятать» одну картинку в другой [23:01].

## 🏠 Крах Zillow и корпоративный «ИИ-оптимизм»
[[JUMP:29:41]]

Громким провалом месяца стала история компании Zillow, которая была вынуждена уволить 25% персонала и закрыть бизнес по перепродаже домов [29:53]. Алгоритм ИИ оценивал стоимость недвижимости и принимал решения о покупке, но в итоге компания начала покупать дома дороже, чем могла продать [30:19].

Янник считает это важным уроком: нельзя просто «бросить ИИ на проблему» и ждать успеха. Оценка недвижимости — это сфера, где локальный риелтор всегда обладает большей контекстной информацией, чем глобальный алгоритм, работающий на скудных метаданных из интернета [30:45]. В то же время конкуренты Zillow продолжают успешно работать, что указывает скорее на управленческую ошибку и плохую валидацию моделей внутри конкретной компании, а не на немощность технологии в целом [31:12].

В завершение выпуска Янник прокомментировал статью в Fortune о том, что ИИ «повышает моральный дух сотрудников» [35:38]. Согласно опросу Boston Consulting Group, 79% респондентов заявили об улучшении атмосферы в коллективе после внедрения ИИ [36:44]. Янник иронично предположил, что сама эта статья написана искусственным интеллектом, чтобы заставить людей быть более лояльными: «Это звучит так, будто ИИ-авторы говорят: „Смотри, человек, если ты будешь использовать нас, мы дадим тебе печеньку, а если нет — помни, что СЕО должны внедрять нас ради прибыли“» [37:25].