Янник Килчер разобрал регулирование ИИ в ЕС и модель WuDao

Yannic Kilcher 18,5 тыс. 16 мин 6 мин 09.06.2021
Главное

В новом выпуске своего обозревательного блога исследователь машинного обучения Янник Килчер анализирует ключевые события индустрии искусственного интеллекта. Главными темами обсуждения стали новые регуляторные инициативы Европейского союза, амбициозная китайская нейросеть-гигант WuDao и системный кризис академической этики в сфере машинного обучения. Ведущий критически оценивает как корпоративный пиар крупных компаний, так и современные тенденции в научной среде.

🇪🇺 Инициатива ЕС: попытка зарегулировать «программное обеспечение» 0:00

Европейский союз представил проект закона об искусственном интеллекте (Artificial Intelligence Act), направленный на регулирование ИИ-систем и ограничение их вредоносного использования. В документе ИИ определяется как программное обеспечение, разработанное с использованием методов машинного обучения, логических, знаниевых или статистических подходов, способное под управлением человека генерировать контент, прогнозы или рекомендации.

По мнению Янника Килчера, под это масштабное определение подпадает практически любое современное программное обеспечение. Законопроект делит ИИ-приложения на категории риска:

Янник Килчер скептически отмечает, что регуляторные органы неизбежно будут заполнены лоббистами корпораций, стремящихся получить исключения из правил. Ведущий также сыронизировал над эффективностью прошлых инициатив ЕС, напомнив про повсеместное появление раздражающих баннеров о согласии на использование файлов cookie. Тем не менее, по его оценке, ЕС настроен решительно и доведет регулирование ИИ до конца.

🏥 Диагностика COVID-19: триумф методологических ошибок 2:39

В журнале Science Mag была опубликована критическая статья Дерека Лоу, основанная на мета-анализе применения машинного обучения для диагностики COVID-19 по рентгеновским снимкам и компьютерной томографии. Из более чем 2000 исследованных научных работ авторы отобрали 62 исследования. Анализ показал, что ни одна из рассмотренных моделей не пригодна для клинического использования из-за методологических дефектов и скрытых искажений в данных.

Янник Килчер поддержал жесткую критику автора статьи в адрес сложившейся практики машинного обучения. В качестве примера приводится использование популярного датасета по пневмонии, который состоял исключительно из снимков детей в возрасте от 1 до 5 лет. Модели, обучавшиеся на нем для выявления COVID-19 у взрослых, фактически учились просто отличать детей от взрослых. Среди ключевых упущений ученых выделяются:

Янник Килчер с сожалением констатирует, что для многих авторов целью является лишь публикация статьи, а не научный вклад. В подтверждение этой мысли он приводит комментарий исследователя Дерека Джонса, заявившего, что машинное обучение стало удобным инструментом для людей, ничего не смыслящих в предметной области, позволяя им публиковать работы с помощью нажатия кнопок и генерации псевдотехнической болтовни.

🇨🇳 Сверхбольшие модели: WuDao бьет рекорды 4:50

Пекинский институт искусственного интеллекта (BAAI) представил мультимодальную модель WuDao 2.0, содержащую 1,75 триллиона параметров, что в 10 раз превышает объем знаменитой GPT-3 от OpenAI. Модель разработана на PyTorch и использует разреженную архитектуру Fast Mixture of Experts (MoE), аналогичную технологии Switch Transformers от Google. Это позволило обучать ее как на суперкомпьютерах, так и на стандартных графических процессорах.

WuDao демонстрирует превосходство над американскими аналогами в ряде задач:

Китайские исследователи также заявили о создании специализированных моделей ChangDao (для физики) и ChangYen (для наук о жизни), планируя в будущем объединить их в единую систему. По словам Янника Килчера, это звучит амбициозно, хотя точный смысл объединения «для работы во всей Вселенной» остается неясным. Ранее в том же году компания Huawei выпускала модель Pangu Alpha, превосходящую GPT-3, однако WuDao вывела масштабирование технологий на принципиально новый уровень.

🔍 Ошибка Google и культура интернет-обид 6:48

Компания Google оказалась в центре скандала после того, как на поисковый запрос пользователя «самый уродливый язык в Индии» автоматическая система ответов выдала один из реально существующих региональных языков. Это вызвало волну возмущения в социальных сетях. Представители Google оперативно принесли извинения и исправили ошибку алгоритма.

Янник Килчер считает реакцию общественности чрезмерной. Он продемонстрировал в кадре пустое ведро, символизирующее, по его мнению, реальный объем ущерба от этого инцидента. Ведущий отметил, что раньше люди понимали разницу между поисковой системой, собирающей данные из сети, и авторитетным источником истины. Сейчас же в интернете стало модно впадать в ярость ради получения социального одобрения и влияния.

Ради шутки Янник протестировал алгоритмы ответов Google на другие спорные запросы:

🍔 «Демократизация» ИИ от McDonald’s 9:42

Издание ZDNet опубликовало материал о том, что сеть ресторанов McDonald’s планирует «демократизировать машинное обучение для всех сотрудников». На практике, как указывает Янник Килчер, под этим громким лозунгом скрывается лишь стандартное внутреннее внедрение технологий автоматизации и контроля затрат.

Цитаты топ-менеджеров компании перенасыщены корпоративным жаргоном. Они заявляют о переносе данных в корзины Amazon S3, создании озер данных (Data Lakes), управлении версиями и построении масштабируемых конвейеров инженерии признаков. Янник Килчер раскритиковал этот текст за нулевую информативность при огромном объеме умных слов. Лишь в финале статьи упоминаются реальные задачи:

Ведущий иронично подытожил, что истинная цель McDonald's — предсказывать поведение клиентов, продавать им больше еды и «помогать быстрее зарабатывать диабет», но компания почему-то стесняется сказать об этом прямо.

📈 Крипта и секретные трюки промпт-инжиниринга 11:15

В короткой заметке от Analytics Insight утверждается, что искусственный интеллект помогает инвесторам извлекать прибыль, предсказывая курсы криптовалют. Янник Килчер воспользовался инфоповодом, чтобы напомнить, что в его Discord-сообществе аналогичный канал по прогнозированию фондовых рынков успешно функционирует уже долгое время.

В области генерации изображений с помощью моделей CLIP был обнаружен любопытный хак, опубликованный исследователем Араном Комацузаки. Если добавить к текстовому запросу фразу «Unreal Engine», нейросеть начинает выдавать гораздо более детализированные и качественные изображения. Килчер выразил восторг по поводу развития промпт-инжиниринга, отметив, что этот скрытый потенциал взаимодействия с моделями еще только начинает раскрываться.

🎓 Манифест Джейкоба Бакмана: призыв к откровенному обману 12:32

Бурное обсуждение в сообществе вызвала сатирическая статья исследователя Джейкоба Бакмана «Пожалуйста, совершайте больше откровенного академического мошенничества». Это стало реакцией на раскрытие тайных сговоров рецензентов на ИИ-конференциях. Бакман противопоставляет наглое мошенничество повседневному «мелкому» обману, который стал нормой в научной среде. К такому бытовому манипулированию относятся:

По мнению Бакмана, этот скрытый обман неотличим от обычных ошибок, поэтому на него закрывают глаза. Поскольку в процесс вовлечены почти все, никто не решается осуждать коллег, чтобы не выглядеть лицемерным. Автор статьи признался, что его собственные прошлые публикации содержали подобную чушь. Янник Килчер согласился с этим, признав наличие таких же компромиссов в своих научных работах. Чтобы опубликовать статью, исследователь вынужден представлять результаты нереалистично идеальными, замалчивая любые недостатки.

Бакман призывает совершать настолько явный обман, чтобы его невозможно было игнорировать. По его логике, только радикальный скандал заставит ИИ-сообщество начать борьбу с системным кризисом. Сам Килчер настроен пессимистично: он считает, что ситуация не изменится, а доверие к сфере машинного обучения продолжит угасать. По его оценке, более половины статей на конференциях не имеют научной ценности. Ведущий поддержал идею Бакмана о том, что читатели должны стать жесткими критиками и проверять каждую публикацию. Килчер предложил полностью отменить закрытое рецензирование на конференциях, сделав процесс оценки прозрачным и коллективным.

💬 Цитаты

«Машинное обучение обеспечивает средства для людей, которые ничего не знают о предмете, публиковать статьи в этой области.»

Янник Килчер (цитируя Дерека Джонса) 04:35

«Более половины всех статей, публикуемых на конференциях, имеют абсолютно нулевой эффект и нулевую научную достоверность.»

Янник Килчер 15:00
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Mixture of Experts (MoE)
Нейросетевая архитектура, использующая разреженную активацию подсетей («экспертов») для экономии вычислительных ресурсов при гигантском объеме параметров.
Ablation study
Эксперимент по поочередному удалению отдельных компонентов ИИ-модели для оценки их реального влияния на итоговую эффективность.
Промпт-инжиниринг
Процесс подбора и оптимизации текстовых формулировок запроса для получения наиболее точного результата от генеративной нейросети.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Yannic Kilcher WuDao Google Искусственный интеллект