Янник Кильчер о скандалах в ML: алгоритмы увольнения в Amazon и юридические риски ИИ

В новом выпуске ML News ведущий Янник Кильчер (Yannic Kilcher) анализирует главные события в мире машинного обучения, уделяя особое внимание юридическим и этическим дилеммам. В центре обсуждения — запуск GitHub Copilot и вызванные им споры об интеллектуальной собственности, алгоритмическая система увольнений в Amazon и кризис доверия к научным публикациям из-за ИИ-генерации текстов.

💻 GitHub Copilot: революция в кодинге или юридический кошмар? 0:00

GitHub в сотрудничестве с OpenAI представили GitHub Copilot — систему «ИИ-парного программиста», работающую прямо в редакторе кода . Инструмент построен на базе OpenAI Codecs и способен преобразовывать естественный язык в рабочие функции и целые классы .

Янник Кильчер отмечает, что в отличие от классического автодополнения, которое предлагает переменные в области видимости, Copilot пытается угадать намерения разработчика. По словам ведущего, он сам давно пользуется аналогичным сервисом Tabnine и находит ИИ-подсказки крайне полезными, особенно при написании шаблонного кода или логов .

Однако у системы есть и обратная сторона:

Ошибки в коде: В одном из демонстрационных примеров Copilot предложил использовать числа с плавающей точкой (float) для обработки денежных операций, что, по мнению Кильчера, является грубейшей ошибкой («big no, no») в программировании .
Утечка данных: Система может выдавать конфиденциальную информацию. Янник Кильчер приводит пример, когда Copilot воспроизвел закрытый SSH-ключ, который кто-то оставил в публичном репозитории . В FAQ GitHub признает, что ИИ может выдавать персональные данные, просто потому что он обучался на существующих репозиториях .

⚖️ Авторское право и «вирусная» лицензия GPL 4:58

Самый острый вопрос вокруг GitHub Copilot касается законности использования чужого кода для обучения коммерческой модели. Янник Кильчер подчеркивает: код не всегда доступен «бесплатно» в юридическом смысле .

В ходе анализа автор выделяет несколько ключевых правовых аспектов (подчеркивая, что он не юрист и его рассуждения носят развлекательный характер ):

Идеи vs Выражение: Согласно закону об авторском праве, защищается не сам алгоритм или идея, а конкретное творческое выражение автора . Янник Кильчер задается вопросом: если человек может изучить чужой код и написать свой на основе полученных знаний, почему машина не может делать то же самое?
Производные работы: По мнению Янника, ключевой спор будет вращаться вокруг того, является ли код ИИ «производной работой». Если код содержит значимые элементы оригинала, он может нарушать авторские права .
Проблема GPL: Лицензия GNU GPL работает по принципу «копилефта»: любые модификации кода должны распространяться на тех же условиях . Янник Кильчер указывает на риск: если Copilot выдает код, обученный на базе GPL, не становится ли весь проект пользователя автоматически лицензированным под GPL?

По мнению ведущего, ситуация остается «серой зоной», и реальные ответы появятся только тогда, когда кто-то подаст в суд и будет создан судебный прецедент .

🧩 Brickit: ИИ для любителей LEGO и поиск мемов 17:28

В блоке коротких новостей Янник Кильчер упоминает инициативу Facebook AI — соревнование по поиску сходства изображений. Официальная цель — находить первоисточники мемов, чтобы отдавать должное их авторам. Янник иронично замечает, что «у этой технологии, конечно же, нет никаких других скрытых применений» .

Также автор выделил приложение Brickit для пользователей iOS. Программа сканирует рассыпанную кучу деталей LEGO и предлагает варианты моделей, которые можно из них собрать . Янник Кильчер выразил сомнение в практичности: приложение часто предлагает фигурки из 20 деталей, когда перед ним гора из 500 элементов, но признал саму идею очень крутой .

📉 Закрытие Distill и кризис научной периодичности 18:38

Популярный научный онлайн-журнал Distill объявил о перерыве в публикации материалов. Издание славилось интерактивными и визуально богатыми статьями, объясняющими сложные концепции ИИ .

Основной причиной «паузы» Янник Кильчер называет выгорание волонтеров. Учитывая высочайшие стандарты качества Distill, поддерживать такой уровень на добровольных началах крайне сложно . Ведущий соглашается с тезисом редакции журнала о том, что будущее науки — за самопубликацией и обсуждением работ в соцсетях, а не за традиционной системой рецензирования на конференциях .

🤖 Amazon против людей: увольнение по алгоритму 19:49

Компания Amazon использует алгоритмы для оценки и автоматического увольнения водителей службы доставки Flex . В системе работают миллионы водителей по модели Uber, и Amazon решил заменить HR-отдел математическими моделями .

Янник Кильчер приводит шокирующие случаи из отчета Engadget:

Водитель потеряла рейтинг из-за проколотого колеса. Несмотря на исправление ситуации, её аккаунт позже был заблокирован за нарушение условий обслуживания .
Другой курьер был наказан за то, что не смог попасть в закрытый жилой комплекс, а внутренние шкафчики (Amazon lockers) самой компании не открылись. Система сочла это виной водителя и уволила его .

Ведущий переходит на личную историю, описывая свой негативный опыт общения с поддержкой Amazon. Его аккаунт заблокировали без объяснения причин при попытке купить подарочные карты, лишив доступа к купленным аудиокнигам . Янник Кильчер не скрывает эмоций: «Это ты против машины. Amazon стоит на втором месте после PayPal по ужасности клиентской поддержки. К черту Amazon!» .

📚 Новые инструменты и «фейковая» наука 23:20

В завершение выпуска Янник Кильчер кратко представил несколько полезных библиотек:

TensorFlow Decision Forests: Новый алгоритм для работы с лесами решений .
Facebook Habitat: 3D-среда для обучения роботов .
Google Research Falcon: Агент для тестирования видеоигр .
Google AI Brax: Дифференцируемый физический движок для TPU .

Последняя новость касается роста числа отозванных научных статей . Исследователи всё чаще используют ИИ для генерации фейковых работ или фальсификации данных. Янник Кильчер полагает, что проблема «фейковой науки» глубже: часто авторы просто добавляют громкие имена в соавторы или подтасовывают результаты под свою теорию . В машинном обучении это особенно заметно, так как многие результаты невозможно воспроизвести, а на любые претензии авторы отвечают: «Вы просто неправильно запустили код» .

В качестве решения Янник Кильчер предлагает развивать децентрализованные механизмы проверки, где мнения ученых со всего мира будут агрегироваться, а не зависеть от централизованных комитетов, которые легко коррумпировать или обмануть .