ИИ на рентгене, закрытие HealthStreams и Юрген Шмидхубер в Саудовской Аравии

В новом выпуске ML News Янник Килхер разбирает закрытие амбициозного медицинского проекта HealthStreams от Google и анализирует научную работу о способности ИИ определять расу пациента по рентгеновским снимкам. Статья охватывает широкий спектр тем: от назначения Юргена Шмидхубера в Саудовскую Аравию до юридических споров вокруг авторского права на архитектуру программного кода.

🏥 Закат HealthStreams и стратегия «кладбища» Google 1:45

Компания Google официально подтвердила прекращение работы приложения Streams (HealthStreams), которое изначально разрабатывалось подразделением DeepMind для поддержки врачей в Великобритании. Проект, запущенный в 2015 году, ставил целью внедрение ИИ-технологий в экосистему здравоохранения, однако, по факту, Streams оставалось инструментом для отслеживания данных и помощи в принятии решений без глубокой интеграции нейросетей.

История приложения сопровождалась громкими скандалами:

В ходе проверок выяснилось, что у DeepMind не было достаточных законных оснований для обработки медицинских данных пациентов.
Несмотря на обещания не передавать данные в Google, в конечном итоге проект был передан в Google Health.
На текущий момент компания решила полностью закрыть приложение, хотя причины — будь то проблемы с конфиденциальностью или отсутствие сильной бизнес-модели — остаются неясными до конца.

В официальных сообщениях Google неоднократно подчеркивается, что все накопленные данные будут удалены. Янник Килхер отмечает, что компания уделяет этому вопросу беспрецедентное внимание в своих пресс-релизах. Несмотря на критику в адрес Google за привычку быстро закрывать продукты (такие как Google Plus или многочисленные мессенджеры), ведущий считает, что такая стратегия оправдана. По мнению Янника Килхера, готовность закрывать неудачные проекты позволяет компании экспериментировать и выпускать полезные инновации, которые могли бы не появиться, если бы каждый продукт требовал вечных обязательств по поддержке. Тем не менее, автор иронично призывает вернуть бесплатное хранилище в Google Photos.

🧬 Распознавание расы по снимкам: когда ИИ видит невидимое 4:19

Особое внимание в выпуске уделено исследованию, посвященному способности ИИ распознавать расовую принадлежность пациентов по рентгеновским и радиологическим снимкам. Группа ученых провела тщательный анализ, пытаясь исключить все побочные переменные (например, источник данных), чтобы проверить, на что именно опирается алгоритм.

Основные выводы исследования:

Даже на сильно размытых и пикселизированных изображениях, где человек не может разобрать никаких деталей, ИИ определяет расу с точностью выше случайной.
Модели, обученные не на предсказание расы, а на медицинские диагнозы, всё равно учитывают расовые маркеры как часть своего процесса принятия решений.

Ведущий отмечает, что хотя проблема предвзятости (bias) в ИИ существует, обсуждение часто уходит в идеологическую плоскость. По мнению Янника Килхера, некоторые исследователи склонны игнорировать реальность в угоду идеологии. Он утверждает, что результаты состояния здоровья объективно взаимодействуют с генетикой, окружающей средой и социальным контекстом, и это крайне сложная, многофакторная проблема. По словам Килхера, не стоит считать подобные выводы ИИ чем-то ужасающим по определению; вместо этого нужно искать решения, которые принесут пользу максимальному количеству людей.

🐒 Этические ошибки: почему алгоритмы путают людей и приматов 7:36

Facebook принес официальные извинения за ошибку алгоритма, который пометил видео с темнокожими мужчинами ярлыком «приматы». Это не первый подобный случай в индустрии: в 2015 году аналогичную ошибку допустил Google, после чего компания просто заблокировала поисковые запросы по словам «горилла», «шимпанзе» и «обезьяна».

Янник Килхер предлагает взглянуть на это с технической точки зрения:

Для модели ошибка в классификации человека и примата технически идентична ошибке между яхтой и парусником.
Алгоритм не обладает врожденным пониманием «социально неприемлемых» ошибок.
Исправление таких проблем требует колоссальных усилий по разметке данных и контролю, что комбинаторно очень сложно.

По мнению ведущего, обществу стоило бы относиться к таким сбоям проще — как к техническому багу, а не как к проявлению скрытой злонамеренности. Однако он признает, что в ситуациях, где предсказания ИИ имеют реальный вес, необходим строгий надзор.

🇸🇦 Юрген Шмидхубер и новый «золотой век» науки 11:55

Известный ученый Юрген Шмидхубер объявил о своем назначении директором инициативы по ИИ в Университете науки и технологий имени короля Абдаллы (KAUST) в Саудовской Arabia. KAUST считается одним из самых богатых и хорошо финансируемых университетов мира.

Как утверждает Шмидхубер в своем блоге, он надеется, что эта инициатива положит начало «новому золотому веку науки», аналогичному исламскому золотому веку, начавшемуся более восьми столетий назад. Шмидхубер планирует совмещать эту деятельность со своими текущими позициями, работая на две страны.

⚖️ Авторское право на структуру кода: позиция GitHub 12:38

Платформа GitHub направила в суд экспертное заключение (amicus curiae) по делу о защите авторских прав в сфере программирования. Спор между SAS Institute и World Programming Software касается «нелитерального копирования». Истец утверждает, что ответчик скопировал не сами строки кода, а общую структуру и организацию системы.

Янник Килхер скептически относится к претензиям SAS Institute, сравнивая это с обвинением художника в том, что он расположил краски на холсте в том же порядке. По мнению GitHub, уведомления о нарушении авторских прав (DMCA) должны содержать максимально конкретные детали того, что именно было нарушено, иначе защита становится невозможной.

🔬 Будни исследователя: проблемы воспроизводимости и оптимизации 15:03

В сообществе ML активно обсуждаются проблемы воспроизведения результатов научных статей. Один из пользователей Reddit пожаловался, что тратит 90% времени на попытки получить те же цифры, что указаны в публикациях, но часто получает 30% точности вместо заявленных 70%.

Янник Килхер подтверждает, что это типичная ситуация для современной науки. По его словам, авторы часто умалчивают о специфических «трюках» при обучении или используют устаревший код на GitHub. Ведущий советует исследователям:

Не пытаться во что бы то ни стало достичь идеального совпадения цифр.
Честно указывать в своих работах как результат из оригинальной статьи, так и тот, что удалось получить самостоятельно.
Для оптимизации гиперпараметров использовать простые методы, такие как последовательное варьирование параметров по одному, что гораздо дешевле полного перебора.

🔍 Интерактивный поиск и работа над MuZero 23:24

Янник представил новую работу, выполненную в соавторстве с командой Google, посвященную интерактивным поисковым агентам. Суть проекта заключается в создании агентов, которые могут уточнять поисковый запрос в несколько шагов, подобно тому, как это делает человек.

В рамках работы была выпущена реализация алгоритма MuZero, основанная на библиотеке SEED RL. По утверждению Яника Килхера, оригинальная статья и псевдокод MuZero содержали мелкие ошибки, которые делали систему неработоспособной, в то время как их текущая реализация более надежна и готова к использованию в средах Gym.

🧠 ИИ в ментальном здоровье: амбиции против реальности 25:16

Стартапы всё чаще заявляют о возможности детекции депрессии по голосу, однако VentureBeat ставит под сомнение их точность. Проблемы кроются в смещении данных:

Некоторые системы обучались только на жителях одного города или только на носителях английского языка.
Алгоритмы часто путают языковой барьер с признаками депрессии.
Игнорируются региональные акценты.

По мнению ведущего, развитие технологий в этой сфере необходимо из-за нехватки квалифицированных врачей. Однако он предупреждает, что главной задачей поколения станет предотвращение «антиутопического будущего», где кривые алгоритмы имеют слишком большую власть над жизнями людей. Янник призывает к постоянному мониторингу и оценке таких систем, признавая, что определенный риск неизбежен при движении вперед.