# NLP без текста, тайны TikTok и Юрген Шмидхубер против всех в новом выпуске ML News

Источник: https://www.youtube.com/watch?v=-sNJd7bANTI
Канал: Yannic Kilcher
Опубликовано: 16.09.2021

---

В новом выпуске ML News Янник Килчер, популярный исследователь и популяризатор машинного обучения, разбирает последние достижения в области ИИ: от способности роботов-пылесосов распознавать продукты жизнедеятельности домашних животных до амбициозных заявлений Юргена Шмидхубера о приоритете его исследований над всеми современными архитектурами. Масштаб выпуска охватывает как фундаментальные прорывы в NLP от Facebook AI, так и курьезные случаи применения нейросетей в искусстве и маркетинге.

## 🎙️ NLP без текста: Новая эра аудиомоделей от Facebook AI
[[JUMP:02:44]]

Подразделение Facebook AI (ныне Meta) опубликовало серию работ, посвященных концепции «NLP без текста» (Textless NLP) [02:44]. Традиционные системы голосового управления и синтеза речи всегда использовали промежуточное звено — текст. Сначала звук переводился в слова (ASR), затем текст обрабатывался моделью, и результат снова синтезировался в голос (TTS). Facebook предложил отказаться от этого посредника.

Основные технические особенности системы:

*   **Сквозное обучение (End-to-End):** Модель работает напрямую с аудиоволнами, генерируя звук из звука [03:11].
*   **VQ-VAE архитектура:** Система использует вариационный автокодировщик с векторным квантованием для разделения характеристик сигнала. Это позволяет изолировать личность говорящего от содержания речи, интонации и ритма [03:25].
*   **Экспрессивные юниты:** Вместо токенов или слогов модель оперирует абстрактными единицами звука, которые она определяет самостоятельно [04:06].

По мнению Килчера, это открывает огромные возможности для редактирования речи: можно изменить ритм или интонацию фразы, сохранив голос автора, или заставить человека «говорить» на другом языке с его оригинальной манерой [04:31]. Кроме того, модель способна продолжать начатую аудиозапись, выступая в роли полноценной языковой модели для звука, что приближает ИИ к выполнению обещаний «глубокого обучения» в области аудио [05:12].

## 🏛️ Юрген Шмидхубер: «Всё придумано в моей лаборатории»
[[JUMP:05:32]]

Известный ученый Юрген Шмидхубер опубликовал новый пост под заголовком «Самые цитируемые нейросети построены на работах моей лаборатории» [05:32]. В тексте он утверждает, что практически все современные архитектуры нейросетей имеют корни в его исследованиях десятилетней давности.

Кичлер отмечает, что Шмидхубер действительно является пионером в индустрии, и многие его утверждения имеют под собой фактическую основу — он часто предлагал идеи раньше своего времени [06:05]. Однако, по мнению ведущего, автор часто заходит слишком далеко в своих претензиях:

*   **GAN vs Искусственное любопытство:** Шмидхубер считает принципы «искусственного любопытства» основой для Generative Adversarial Networks (GAN), что не является общепринятой точкой зрения в научном сообществе [06:18].
*   **Трансформеры:** Ученый утверждает, что архитектуры с «быстрыми весами» (fast weight programmers) являются предшественниками трансформеров. Янник считает это преувеличением, хотя и признает математическое сходство с линейными механизмами внимания [06:42].

Килчер иронизирует над стилем подачи материала, но признает вклад Шмидхубера в борьбу за справедливость в цитировании научных работ [07:08].

## 📱 Секреты алгоритмов: TikTok и депрессивные «кроличьи норы»
[[JUMP:07:58]]

Издание Wall Street Journal провело расследование работы алгоритмов TikTok [07:58]. Исследователи создали десятки ботов, которые имитировали интересы реальных пользователей. Выяснилось, что алгоритм невероятно быстро определяет предпочтения и начинает сужать выдачу, погружая пользователя в специфическую тему.

В качестве примера приводится контент о депрессии: если пользователь задерживает взгляд на таких видео, алгоритм начинает лавинообразно предлагать похожие ролики, фактически изолируя пользователя в негативном информационном пузыре [08:18]. По мнению Килчера, TikTok — это «алгоритм YouTube на стероидах» [09:11]. Ведущий жалуется, что ранний YouTube позволял «теряться» в темах через рекомендации в боковой панели, тогда как современные системы максимизируют вовлеченность (engagement) в ущерб пользовательскому опыту, предлагая лишь то, что пользователь уже гарантированно любит [09:36].

## 💩 Roomba против экскрементов и ИИ для аутентификации картин
[[JUMP:10:45]]

Компания iRobot выпустила новую версию пылесоса Roomba, оснащенную ИИ для распознавания экскрементов домашних животных [10:45]. Проблема «размазывания» фекалий по всему дому оказалась настолько серьезной, что инженеры годами обучали камеру на базе тысяч фотографий и макетов из пластилина [11:19]. iRobot настолько уверена в системе, что обещает замену пылесоса, если он не справится с задачей [11:32].

Другой пример прикладного ИИ — адвокат-самоучка обучил сверточную нейросеть (CNN) отличать подлинники картин от подделок [11:53].

*   Метод основан на анализе энтропии фрагментов изображения: система выбирает наиболее информативные части мазков кисти [12:56].
*   ИИ совпал с мнением искусствоведов в 9 из 10 спорных случаев.
*   Килчер критикует логику автора: нельзя одновременно хвалить систему за совпадение с экспертами и призывать экспертов пересмотреть мнение в том единственном случае, где ИИ с ними не согласился [13:48].

## 🏢 Интриги DeepMind и «демократизация» от экс-гуглеров
[[JUMP:14:56]]

В СМИ появились подробности о стремлении DeepMind к независимости от Google [14:56]. По данным Business Insider, руководство лаборатории пыталось создать некоммерческую структуру, чтобы контролировать созданный ими ИИ. Килчер относится к этому скептически: «Вы взяли деньги — вы продали компанию» [15:46]. Он также критикует DeepMind за чрезмерную секретность, отмечая, что лаборатория редко делится кодом и моделями (за исключением AlphaFold), что противоречит их заявлениям о благе для человечества [15:59].

Одновременно с этим бывшие сотрудники Google основали стартап Cohere, собрав $40 млн инвестиций при поддержке Джеффри Хинтона и Фей-Фей Ли [16:12]. Цель — «демократизация» NLP, хотя на практике это выглядит как очередной закрытый API по аналогии с OpenAI [16:38].

## ⚖️ Права ИИ-изобретателей и будущее найма
[[JUMP:16:55]]

Американский суд постановил, что изобретателем в патенте может быть указано только «физическое лицо», но не система ИИ [16:55]. Это решение противоречит практике ЮАР и Австралии, где подобные патенты были приняты. Стивен Талер, автор системы-изобретателя, намерен продолжать борьбу, по его словам, ради защиты прав машин от присвоения их заслуг людьми [17:43].

В завершение выпуска Янник обсуждает проблему автоматизированного найма:

*   Согласно отчету Гарвардской школы бизнеса, софт для подбора персонала ошибочно отсеивает миллионы кандидатов [23:16].
*   Причина не в «злом умысле» ИИ, а в примитивности текущих систем, работающих по жестким правилам (например, отсев из-за пробела в стаже) [23:42].
*   Кичлер утверждает, что решение проблемы — в использовании *более* продвинутых нейросетей, которые поймут контекст резюме лучше, чем перегруженный менеджер по персоналу, получающий по 250 откликов на одну вакансию [24:35].