Янник Кильхер о LLaMA 2 и монополизации ИИ-индустрии

Обзор AI-индустрии: Релиз LLaMA 2, «граничные» модели и борьба за безопасность 0:27

Последние полтора месяца в сфере искусственного интеллекта прошли под знаком значительных обновлений и трансформации подходов к открытости моделей. Главным событием стал релиз LLaMA 2 от компании Meta, сопровождавшийся дискуссиями о границах термина «open source», в то время как гиганты индустрии объединились для формирования регулирующих органов, а исследователи продолжают изучать уязвимости и потенциальные риски внедрения ИИ в повседневную жизнь.

🌐 LLaMA 2: Открытость или «ограниченная свобода»? 0:27

Meta выпустила преемника своей модели LLaMA — LLaMA 2, предобученную на 2 триллионах токенов с удвоенным размером контекстного окна. Модель доступна в версиях 7, 13 и 70 миллиардов параметров, однако 35-миллиардная модель пока не была опубликована из-за недостаточного времени на проверку безопасности.

Янник Кильхер отмечает, что лицензия LLaMA 2 не является полноценно «открытой» (open source). Изначально существовало опасение, что компании с аудиторией свыше 700 миллионов пользователей обязаны запрашивать у Meta разрешение на использование модели. Однако, после уточнения условий лицензии, выяснилось, что это ограничение касается сервисов, имевших такую базу пользователей на момент выпуска модели, то есть на 18 июля 2023 года. Несмотря на это уточнение, Кильхер считает, что модель всё равно не соответствует «духу» Open Source, так как Meta оставляет за собой право отказывать крупным игрокам.

Тем не менее, усиление позиций Meta в сторону открытости — это значительный сдвиг. Янник Кильхер называет Яна Лекуна ключевой фигурой, способствующей этой трансформации внутри компании. Важно отметить, что Meta собрала внушительный список подписантов, поддержавших их подход к «открытым инновациям», среди которых числятся крупные венчурные фонды, такие как Andreessen Horowitz. Кильхер находит этот шаг неоднозначным, предполагая, что некоторые участники могли не до конца осознавать детали лицензионных ограничений.

Вокруг LLaMA 2 уже сформировалась активная экосистема:

Llama 2 Accessory: инструментарий для дообучения и работы с моделью.
Together AI: реализация расширенного контекстного окна с использованием методов интерполяции позиций.
OpenChat и LmSys (Vicuna): выпуск новых производительных моделей на базе LLaMA 2.

🛡️ Frontier Model Forum: Регулирование или монополия? 8:19

Google, Microsoft, OpenAI и Anthropic объявили о создании Frontier Model Forum — индустриального органа для обеспечения безопасной разработки «граничных» (фронтирных) моделей.

Янник Кильхер критически оценивает эту инициативу, называя её попыткой крупных компаний влиять на правительство и законодателей с целью защиты своего монопольного статуса. По его мнению, передача контроля за безопасностью ИИ тем самым компаниям, которые его разрабатывают, напоминает ситуацию, где «Лорд Волан-де-Морт отвечает за безопасное использование магии». Он утверждает, что OpenAI активно лоббирует интересы, направленные на создание регуляторных барьеров для конкурентов.

🛰️ Научные прорывы и новые инструменты 9:38

NASA и IBM: выпустили модель для обработки геопространственных данных, обученную на спутниковых снимках. Модель распространяется по лицензии Apache, что делает её доступной для экологических и климатических исследований.
Google DeepMind (RT-2): новая робототехническая модель, которая комбинирует данные взаимодействия роботов с физическими объектами и знания, полученные из интернета. Это позволяет роботам выполнять абстрактные задачи, например, выбирать объект, который «отличается» от других.
Med-PaLM 2: прогресс Google в области медицинских моделей. По данным Кильхера, модель демонстрирует высокую точность в прохождении медицинских тестов и диагностических рекомендациях, зачастую допуская меньше пропусков важной информации, чем врачи-люди (хотя и склонна совершать систематические ошибки, в отличие от врачей).
AudioCraft (Meta): набор моделей для генерации аудио (MusicGen и AudioGen). Ключевым компонентом здесь является EnCodec — нейросетевой кодек, который сжимает аудио в токены, позволяя восстанавливать звук высокой четкости.
Perfusion (Nvidia): метод «персонализации» моделей, требующий всего 100 КБ данных для обучения новому концепту (например, добавлению в модель конкретного объекта, как «плюшевый мишка» или «чайник»).

⚠️ Риски, уязвимости и «теневой» ИИ 27:51

В ходе дискуссии были затронуты аспекты безопасности:

Состязательные атаки: Исследование показало, что состязательные суффиксы, направленные на обход ограничений безопасности (jailbreak), эффективно передаются между моделями, включая закрытые API-системы. Это позволяет обходить этические фильтры чат-ботов, заставляя их выдавать запрещенный контент.
WormGPT: Инструмент, позиционируемый как «злонамеренная» версия GPT-J. Кильхер скептически оценивает его опасность, демонстрируя на примерах, что создаваемый им код для кражи данных или фишинговые письма крайне неэффективны и примитивны.
Акустические атаки: Исследователи научились распознавать вводимые с клавиатуры пароли, прослушивая звук клавиш через микрофон (включая Zoom) с точностью до 95%. Кильхер советует использовать методы шумоподавления или отключать микрофон при вводе конфиденциальных данных.