Сканирование смартфонов от Apple и «мастер-лица»: обзор ML News

В новом выпуске своего обзора новостей машинного обучения Янник Килчер анализирует ключевые события в индустрии технологий и искусственного интеллекта. Главными темами обсуждения стали резонансное решение компании Apple о сканировании пользовательских устройств, новые инициативы Европейского союза по мониторингу переписки и технологические прорывы в области обхода систем распознавания лиц. Автор подробно разбирает как практические инструменты для исследователей, так и свежие академические публикации, сочетая глубокий технический анализ с тонкой иронией.

🛠️ Weights & Biases: автоматизация подбора гиперпараметров 0:12

Выпуск начинается с разбора возможностей платформы Weights & Biases, выступающей спонсором видео. Платформа позиционируется как универсальное решение для исследователей в области машинного обучения, позволяющее отслеживать, воспроизводить и анализировать эксперименты с помощью всего одной строки кода на всех этапах — от идеи и разработки до деплоя.

Особое внимание Янник Килчер уделяет инструменту Sweeps, предназначенному для автоматического поиска и оптимизации гиперпараметров. Данная система работает по следующему принципу:

Пользователь четко определяет условия своего эксперимента.
Задается конкретный диапазон параметров для поиска.
Система автоматически выполняет распределенный поиск лучших конфигураций.

Благодаря распределенной архитектуре, множество агентов на разных серверах могут одновременно забирать код и новые параметры из центрального узла, проводить тесты и отправлять результаты обратно. Оптимизация координируется байесовским алгоритмом, который определяет наиболее перспективные наборы параметров. Экономия вычислительных ресурсов достигается за счет механизма ранней остановки (early stopping), отсекающего неэффективные итерации.

На примере собственного интерфейса Sweeps Янник Килчер демонстрирует аналитическую панель, отображающую статус всех запусков и индивидуальную важность каждого параметра. Согласно его тестам, скорость обучения (learning rate) оказалась наиболее критичным фактором, показавшим положительную корреляцию с целевой функцией. Инструмент позволяет отфильтровать запуски с минимальными потерями на валидации (validation loss), чтобы наглядно сопоставить эпохи обучения и конфигурации. Платформа бесплатна для персонального использования, предлагает свободный доступ для академических команд и коммерческие тарифы для предприятий.

🍏 Сканирование iCloud: компромисс между безопасностью и приватностью Apple 3:23

Одной из самых обсуждаемых тем недели стало подтверждение со стороны Apple планов по сканированию фотографий пользователей на предмет наличия материалов с насилием над детьми. Это решение вызвало серьезную дискуссию в сообществе, так как ранее Apple активно выстраивала свой маркетинг вокруг абсолютной конфиденциальности данных и сквозного шифрования на устройствах.

Янник Килчер детально описывает техническую сторону процесса, подчеркивая, что сканирование происходит локально на самом устройстве перед загрузкой файлов в облако. Сам сервис iCloud зашифрован пользовательскими ключами, поэтому компания технически не может сканировать уже загруженные файлы напрямую. Однако интеграция локального механизма проверки потенциально открывает доступ к любым данным пользователей, поскольку технические ограничения для расширения списка сканируемых файлов отсутствуют. Ведущий выражает опасение, что обещания Apple не использовать эту лазейку в других целях не гарантируют защиту от злоупотреблений в будущем.

Архитектура системы проверки базируется на сравнении хэшей с базой данных правоохранительных органов, содержащей уникальные идентификаторы нелегальных материалов. Традиционное хэширование требует побитового совпадения, но Apple применяет алгоритм локально-чувствительного хэширования (Locality Sensitive Hashing, LSH), названный NeuralHash. Этот метод работает на основе нейросети, которая переводит изображения в высокомерное пространство векторов, где похожие по содержанию картинки оказываются рядом.

Для эффективного поиска ближайших соседей алгоритм LSH делит пространство на условные сектора (бакеты). Если два изображения попадают в один бакет, система проводит их точную сверку. Подобный подход делает алгоритм устойчивым к сжатию JPEG или изменению насыщенности цвета.

Тем не менее, ведущий выделяет ключевые риски и недостатки технологии:

Политическое злоупотребление: Любая властная структура может внести в базу хэши материалов оппозиции или повстанческих групп для автоматического выявления их сторонников.
Уязвимость перед состязательными атаками: Поскольку модель NeuralHash находится непосредственно на клиентском устройстве, злоумышленники получают к ней полный доступ. Это позволяет генерировать состязательные атаки (adversarial attacks), слегка модифицирующие нелегальные картинки так, чтобы они получали случайный хэш и обходили фильтры.

Правда, Apple внедрила дополнительный этап «ослепления» (blinding step) — пропуск данных через классическую криптографическую функцию после NeuralHash. Ведущий отмечает, что это предотвращает таргетированные атаки с целью подставить невиновного человека (путем отправки ему обычного фото, маскирующегося под запрещенное). Однако обход фильтра через нетаргетированную атаку все равно остается возможным. В данном споре Янник Килчер однозначно встает на сторону защиты приватности пользователей.

🇪🇺 Тотальный мониторинг: ЕС одобряет проверку личных сообщений 14:03

Параллельно с инициативами Apple, Европейский парламент одобрил временное исключение из директивы о конфиденциальности электронных коммуникаций (e-privacy derogation). По сообщениям Европейской пиратской партии, это решение легализует автоматический поиск подозрительного контента провайдерами электронной почты и мессенджеров во всей личной переписке граждан с последующей передачей данных в полицию.

Представители Пиратской партии в составе фракции «Зеленые — Европейский свободный альянс» жестко осудили нововведение, назвав его концом цифровой приватности. Янник Килчер указывает на разницу: если Apple внедряет инструмент контроля самостоятельно, то ЕС создает юридическую базу, разрешающую корпорациям вести массовую слежку. По мнению ведущего, даже использование защищенных мессенджеров вроде Signal может потерять смысл, если Apple или Google начнут перехватывать и сканировать сообщения непосредственно на устройствах перед отправкой.

📖 Просто о сложном: книга-FAQ по машинному обучению и курьез на записи 15:28

В качестве более позитивной темы Янник Килчер представляет онлайн-книгу разработчика RenChu Wang, которая объясняет принципы машинного обучения в формате ответов на часто задаваемые вопросы (FAQ). В книге кратко и доступно разбираются базовые концепции, например:

Эмбеддинги (embedding layers): Слои, преобразующие токены (целые числа) в векторы — списки чисел с плавающей запятой.
Применение эмбеддингов: Используются для обработки текста, так как нейросети не способны напрямую работать с дискретными числами, требуя непрерывных векторных представлений.

Презентация книги сопровождается забавной личной историей ведущего. Во время первой попытки записи этого обзора Янник заметил опечатку в тексте книги, прямо на экране оформил пул-реквест (PR) на GitHub, который был оперативно одобрен автором.

Однако позже выяснилось, что запись экрана была выключена. Во второй дубль ведущий иронично включил нарезку своих восторженных комментариев из утерянной записи, поздравляя сообщество с «улучшением мира шаг за шагом». По оценке Килчера, книга не претендует на идеальную техническую точность, но служит отличным сжатым справочником для новичков.

🧠 Тесты для языковых моделей: новые датасеты Google и Facebook 17:37

Google выпустила два новых набора данных для сферы обработки естественного языка (NLP). Первый датасет, TimeDial, проверяет понимание моделями временной последовательности и логики протекания процессов в диалогах. Модели предлагается заполнить пропуск в контексте беседы о планах на день (например, определить корректное время встречи на основе предыдущих реплик участников). Тесты показывают, что популярные архитектуры вроде T5 и BERT все еще часто ошибаются, выбирая неподходящие по смыслу варианты времени.

Второй датасет от Google получил название DisflQA и нацелен на тестирование способности ИИ обрабатывать «неречевые» (дисфлюэнтные) вопросы, в которых говорящий запинается, исправляет себя или меняет формулировку на ходу. Подобные конструкции сложны тем, что модель должна удерживать связь с первоначальной сущностью, несмотря на лексические искажения.

Янник Килчер критически отмечает, что разработчики часто создают модели, которые просто переобучаются под специфику генерации конкретного датасета. Он предлагает оценивать алгоритмы на подобных тестах без предварительного специализированного обучения, включив их, к примеру, в бенчмарк SuperGLUE.

Также в сегменте обработки данных выделяется релиз от Facebook Research под названием Vox Populi. Это масштабный корпус речевых данных, собранный на основе записей заседаний Европейского парламента. Набор содержит огромные объемы размеченной и неразмеченной речи, а также переводы на различные языки, что делает его ценным ресурсом для разработчиков систем распознавания и перевода речи.

⚡ Железо и милитари-технологии: чип Google Tensor и прекогнитивный ИИ Пентагона 20:54

В аппаратном секторе главной новостью стал анонс процессора Google Tensor, который дебютирует в смартфонах Pixel 6. Как утверждает Янник Килчер, текущие заявления компании носят исключительно маркетинговый характер и обещают абстрактное ускорение вычислений машинного обучения и интерфейса, не раскрывая реальных технических спецификаций архитектуры чипа.

Гораздо более серьезный прецедент создают публикации о разработках Вооруженных сил США. Издание Engadget сообщило, что Пентагон тестирует ИИ-систему прекогнитивного анализа, способную прогнозировать развитие опасных ситуаций на несколько дней вперед.

На практике это автоматизация процессов, которые ранее выполнялись аналитиками вручную: нейросети с высокой скоростью сканируют спутниковые снимки и перехваченные коммуникации, помечая подозрительную активность для проверки человеком. Ведущий подчеркивает этическую нейтральность самой базовой технологии, замечая, что аналогичные алгоритмы прогнозирования могут эффективно применяться в мирных целях — например, для предсказания критического ухудшения состояния пациентов в реанимации.

🎨 Генеративные нейросети и биологические аналогии: кастомизация GAN и мозг мухи 23:12

Исследователи из MIT и CMU представили проект Sketch Your Own GAN. Метод позволяет пользователю управлять выдачей генеративно-состязательной сети (GAN), обученной на определенном наборе данных (например, на изображениях кошек), с помощью обычных набросков и скетчей. Нейросеть адаптирует свои параметры так, чтобы генерируемые реалистичные объекты соответствовали форме и направляющим линиям рисунка. По мнению Килчера, это прорыв в сложной задаче управления скрытыми признаками (disentanglement) генеративных моделей, который найдет применение далеко за пределами работы с картинками.

Другая обсуждаемая работа — «Может ли дрозофила выучить эмбеддинги слов?» — привлекла внимание ведущего своим броским заголовком. В реальности ученые не обучали живых насекомых лингвистике; они построили абстрактную математическую модель структуры мозга фруктовой мухи.

Исследование доказало, что биологические алгоритмы обработки информации в мозге насекомого способны эффективно формировать векторные представления слов, аналогично методам NLP. Янник Килчер использует этот пример как урок академического кликбейта, подтверждая важность привлекательного названия для продвижения научных статей.

👤 Уязвимость биометрии: «мастер-лица» взламывают распознавание образов 26:01

Исследователи из Тель-Авивского университета опубликовали работу, посвященную созданию так называемых «мастер-лиц» (master faces) для проведения аналога брутфорс-атак на системы биометрической идентификации. Используя эволюционные алгоритмы, ученые сгенерировали всего 10 универсальных портретов.

Выяснилось, что этот ограниченный набор лиц способен успешно обходить защиту и сопрягаться с профилями пользователей в 40–50% существующих коммерческих систем распознавания лиц. Ведущий обращает внимание на критическую хрупкость современных биометрических сканеров, защищающих доступ к смартфонам или охраняемым объектам, и призывает разработчиков немедленно исправить эту уязвимость.

🎮 Обновления для разработчиков: PyTorch Profiler 1.9 и ИИ в стратегии 0 A.D. 27:24

Для практикующих инженеров важным событием стал релиз PyTorch Profiler версии 1.9. Масштабное обновление включает в себя новые аналитические инструменты:

Просмотр архитектуры распределенного обучения (distributed training view).
Мониторинг использования видеопамяти (memory view).
Анализ утилизации графического процессора (GPU utilization).
Интеграция с облачными хранилищами и функция быстрого перехода к исходному коду (jump to source code).

Инструмент рекомендован всем, кто сталкивается с проблемой низкой производительности нейросетевого кода на PyTorch.

Параллельно популярная историческая стратегия с открытым исходным кодом 0 A.D. получила нативную поддержку библиотек обучения с подкреплением (Reinforcement Learning). Разработчики внедрили API, полностью совместимый со стандартным интерфейсом Gym от OpenAI. В качестве демонстрации создатели игры предлагают готовую задачу (сражение пяти копейщиков против пяти всадников) и руководство по обучению DQN-агента непосредственно в игровом пространстве.

🤖 WALL-E на пляже: робот BeachBot против окурков 28:38

В финале обзора представлена воодушевляющая экологическая инициатива. Голландский инженер, чей ребенок откопал окурок на пляже, объединился с другом для создания автономного колесного робота BeachBot (или сокращенно BB). Внешне и функционально аппарат напоминает знаменитого анимационного персонажа WALL-E. Робот перемещается по песчаному пляжу и с помощью компьютерного зрения идентифицирует и собирает сигаретные фильтры.

Текущие показатели эффективности скромны: BB способен поднять манипуляторами около 10 окурков за 30 минут, после чего ему требуется часовая подзарядка, что, как шутит Янник Килчер, уступает производительности любого заядлого курильщика. Тем не менее, проект ценен как прецедент развития робототехники для устойчивого экологического развития. Размышляя над модернизацией проекта, ведущий в шутку предлагает выпустить роботу-уборщику компаньона под именем Pokey, который бы физически тыкал курильщиков, бросающих мусор на пляже.