NLP без текста, тайны TikTok и Юрген Шмидхубер против всех в новом выпуске ML News

В новом выпуске ML News Янник Килчер, популярный исследователь и популяризатор машинного обучения, разбирает последние достижения в области ИИ: от способности роботов-пылесосов распознавать продукты жизнедеятельности домашних животных до амбициозных заявлений Юргена Шмидхубера о приоритете его исследований над всеми современными архитектурами. Масштаб выпуска охватывает как фундаментальные прорывы в NLP от Facebook AI, так и курьезные случаи применения нейросетей в искусстве и маркетинге.

🎙️ NLP без текста: Новая эра аудиомоделей от Facebook AI 2:44

Подразделение Facebook AI (ныне Meta) опубликовало серию работ, посвященных концепции «NLP без текста» (Textless NLP) . Традиционные системы голосового управления и синтеза речи всегда использовали промежуточное звено — текст. Сначала звук переводился в слова (ASR), затем текст обрабатывался моделью, и результат снова синтезировался в голос (TTS). Facebook предложил отказаться от этого посредника.

Основные технические особенности системы:

Сквозное обучение (End-to-End): Модель работает напрямую с аудиоволнами, генерируя звук из звука .
VQ-VAE архитектура: Система использует вариационный автокодировщик с векторным квантованием для разделения характеристик сигнала. Это позволяет изолировать личность говорящего от содержания речи, интонации и ритма .
Экспрессивные юниты: Вместо токенов или слогов модель оперирует абстрактными единицами звука, которые она определяет самостоятельно .

По мнению Килчера, это открывает огромные возможности для редактирования речи: можно изменить ритм или интонацию фразы, сохранив голос автора, или заставить человека «говорить» на другом языке с его оригинальной манерой . Кроме того, модель способна продолжать начатую аудиозапись, выступая в роли полноценной языковой модели для звука, что приближает ИИ к выполнению обещаний «глубокого обучения» в области аудио .

🏛️ Юрген Шмидхубер: «Всё придумано в моей лаборатории» 5:32

Известный ученый Юрген Шмидхубер опубликовал новый пост под заголовком «Самые цитируемые нейросети построены на работах моей лаборатории» . В тексте он утверждает, что практически все современные архитектуры нейросетей имеют корни в его исследованиях десятилетней давности.

Кичлер отмечает, что Шмидхубер действительно является пионером в индустрии, и многие его утверждения имеют под собой фактическую основу — он часто предлагал идеи раньше своего времени . Однако, по мнению ведущего, автор часто заходит слишком далеко в своих претензиях:

GAN vs Искусственное любопытство: Шмидхубер считает принципы «искусственного любопытства» основой для Generative Adversarial Networks (GAN), что не является общепринятой точкой зрения в научном сообществе .
Трансформеры: Ученый утверждает, что архитектуры с «быстрыми весами» (fast weight programmers) являются предшественниками трансформеров. Янник считает это преувеличением, хотя и признает математическое сходство с линейными механизмами внимания .

Килчер иронизирует над стилем подачи материала, но признает вклад Шмидхубера в борьбу за справедливость в цитировании научных работ .

📱 Секреты алгоритмов: TikTok и депрессивные «кроличьи норы» 7:58

Издание Wall Street Journal провело расследование работы алгоритмов TikTok . Исследователи создали десятки ботов, которые имитировали интересы реальных пользователей. Выяснилось, что алгоритм невероятно быстро определяет предпочтения и начинает сужать выдачу, погружая пользователя в специфическую тему.

В качестве примера приводится контент о депрессии: если пользователь задерживает взгляд на таких видео, алгоритм начинает лавинообразно предлагать похожие ролики, фактически изолируя пользователя в негативном информационном пузыре . По мнению Килчера, TikTok — это «алгоритм YouTube на стероидах» . Ведущий жалуется, что ранний YouTube позволял «теряться» в темах через рекомендации в боковой панели, тогда как современные системы максимизируют вовлеченность (engagement) в ущерб пользовательскому опыту, предлагая лишь то, что пользователь уже гарантированно любит .

💩 Roomba против экскрементов и ИИ для аутентификации картин 10:45

Компания iRobot выпустила новую версию пылесоса Roomba, оснащенную ИИ для распознавания экскрементов домашних животных . Проблема «размазывания» фекалий по всему дому оказалась настолько серьезной, что инженеры годами обучали камеру на базе тысяч фотографий и макетов из пластилина . iRobot настолько уверена в системе, что обещает замену пылесоса, если он не справится с задачей .

Другой пример прикладного ИИ — адвокат-самоучка обучил сверточную нейросеть (CNN) отличать подлинники картин от подделок .

Метод основан на анализе энтропии фрагментов изображения: система выбирает наиболее информативные части мазков кисти .
ИИ совпал с мнением искусствоведов в 9 из 10 спорных случаев.
Килчер критикует логику автора: нельзя одновременно хвалить систему за совпадение с экспертами и призывать экспертов пересмотреть мнение в том единственном случае, где ИИ с ними не согласился .

🏢 Интриги DeepMind и «демократизация» от экс-гуглеров 14:56

В СМИ появились подробности о стремлении DeepMind к независимости от Google . По данным Business Insider, руководство лаборатории пыталось создать некоммерческую структуру, чтобы контролировать созданный ими ИИ. Килчер относится к этому скептически: «Вы взяли деньги — вы продали компанию» . Он также критикует DeepMind за чрезмерную секретность, отмечая, что лаборатория редко делится кодом и моделями (за исключением AlphaFold), что противоречит их заявлениям о благе для человечества .

Одновременно с этим бывшие сотрудники Google основали стартап Cohere, собрав $40 млн инвестиций при поддержке Джеффри Хинтона и Фей-Фей Ли . Цель — «демократизация» NLP, хотя на практике это выглядит как очередной закрытый API по аналогии с OpenAI .

⚖️ Права ИИ-изобретателей и будущее найма 16:55

Американский суд постановил, что изобретателем в патенте может быть указано только «физическое лицо», но не система ИИ . Это решение противоречит практике ЮАР и Австралии, где подобные патенты были приняты. Стивен Талер, автор системы-изобретателя, намерен продолжать борьбу, по его словам, ради защиты прав машин от присвоения их заслуг людьми .

В завершение выпуска Янник обсуждает проблему автоматизированного найма:

Согласно отчету Гарвардской школы бизнеса, софт для подбора персонала ошибочно отсеивает миллионы кандидатов .
Причина не в «злом умысле» ИИ, а в примитивности текущих систем, работающих по жестким правилам (например, отсев из-за пробела в стаже) .
Кичлер утверждает, что решение проблемы — в использовании более продвинутых нейросетей, которые поймут контекст резюме лучше, чем перегруженный менеджер по персоналу, получающий по 250 откликов на одну вакансию .