Марек Козловский о суверенном ИИ: «Американские модели деградируют в поддержке малых языков»

The Cognitive Revolution 64,9 тыс. 1 ч 32 мин 5 мин 06.12.2025
Главное

В условиях глобальной гонки вооружений в сфере искусственного интеллекта Польша выбирает путь создания «суверенного ИИ», ориентированного на культурную аутентичность и экономическую эффективность. Марек Козловский, руководитель лаборатории ИИ в OPI PIB, возглавляет проект PLLuM — амбициозную инициативу по разработке польских больших языковых моделей. В интервью Натану Лабенцу он объясняет, почему локальные модели, которые в десятки раз меньше разработок OpenAI или Google, могут превзойти гигантов в специфических национальных задачах и обеспечить технологическую независимость Европы.

🇵🇱 Суть суверенного ИИ и проект PLLuM 4:23

Марек Козловский предпочитает использовать термин «локализованные LLM» вместо «национальных», подчеркивая, что речь идет об адаптации моделей под конкретный язык или домен . Главная цель проекта PLLuM (Polish Large Language Models) — создать открытые, прозрачные и безопасные модели, которые на порядок меньше популярных проприетарных систем, но при этом обеспечивают сопоставимое или более высокое качество понимания польского языка и культуры .

Ключевые принципы проекта:

Проект реализуется консорциумом из шести (позже расширен до восьми) институтов и университетов при поддержке Министерства цифровизации Польши . По словам Марека Козловского, это общественная инициатива, где успех измеряется не прибылью, а степенью открытости и пользы для государственного сектора.

🗣️ Проблема «англоцентричности» глобальных моделей 8:09

По оценке Марека Козловского, более 90% тренировочных данных во фронтирных моделях (таких как GPT-4 или Llama) приходятся на английский и китайский языки . Доля польского языка в таких корпусах часто составляет менее 1% . Хотя современные LLM демонстрируют поразительные способности к переносу знаний (transfer learning), они часто допускают тонкие культурные и стилистические ошибки.

Марек Козловский приводит в пример написание электронных писем:

Для решения этой проблемы команда PLLuM создала собственный бенчмарк — PLCC (Polish Linguistic and Cultural Competency), который оценивает знание грамматики, традиций, истории и использование идиом в контексте .

🛠️ Техническая стратегия: адаптация вместо обучения с нуля 58:31

Обучение мощной модели с нуля требует огромного количества данных — не менее 1 триллиона токенов для стабильного результата . После очистки и дедупликации всего польского сегмента интернета в распоряжении команды PLLuM оказалось лишь около 200 миллиардов токенов . Этого недостаточно для качественного претрейнинга с «рандомных весов».

Стратегия команды заключается в «языковой адаптации» (language adaptation) существующих базовых моделей, таких как Llama или Mistral :

  1. Продолжение претрейнинга: Модель дообучается на польском корпусе текстов.
  2. Проблема забывания: В процессе адаптации модель может терять часть навыков в других языках, но это осознанный компромисс ради улучшения польского .
  3. SFT и выравнивание: Следующие этапы включают обучение на инструкциях (Supervised Fine-Tuning) и настройку предпочтений (Alignment) .

Марек Козловский подчеркивает важность ручного труда: над проектом работают сотни редакторов, создающих органические инструкции, чтобы избежать деградации модели, которая часто случается при обучении на синтетических данных от других ИИ .

⚖️ Регуляция и «кража» данных американскими компаниями 33:57

Европейские разработчики ИИ находятся под жестким давлением регуляций, таких как EU AI Act и законы об авторском праве . Марек Козловский утверждает, что эти правила могут лишить разработчиков доступа к 80% данных для обучения .

В то же время наблюдается «регуляторный арбитраж»:

💼 Экономика и преимущества локального контроля 45:03

Одной из главных движущих сил суверенного ИИ является потребность бизнеса и госсектора в локальных решениях (on-premise). Многие организации не могут использовать облачные API из-за рисков безопасности или законодательных ограничений .

Преимущества малых специализированных моделей, по мнению Марека Козловского:

  1. Стоимость и энергия: Содержать модель на 16 GPU гораздо дешевле, чем огромные системы, требующие гигантских ЦОДов .
  2. Специализация: Бизнесу часто не нужен универсальный «ChatGPT на все случаи жизни», а достаточно высокого качества в 10–20 конкретных задачах .
  3. Эффективность: Дообученная (fine-tuned) малая модель на 1000 качественных инструкциях может работать не хуже или лучше, чем огромная модель в режиме «few-shot» через облако .

Пример из практики: крупнейший банк Центральной и Восточной Европы PKO провел «доменную адаптацию» моделей на своих внутренних данных . Марек Козловский отмечает, что для успеха такой адаптации компании нужно иметь не менее 10 миллиардов уникальных токенов в своей корпоративной памяти (после очистки и дедупликации) .

🌍 Геополитика и будущее талантов 1:14:10

Марек Козловский признает, что Европа не может конкурировать с США по уровню зарплат ИИ-инженеров, которых он сравнивает с «игроками NFL» или звездными квотербеками по уровню контрактов . Однако Польша фокусируется на создании собственных «фабрик ИИ» — закупке GPU и строительстве дата-центров .

Оба собеседника сошлись во мнении, что развитие технологий ИИ может выйти на плато . Марек Козловский считает, что сейчас наступает «стадия верификации», когда компании начинают считать реальную стоимость инструментов и понимать, что гигантские LLM не всегда целесообразны .

Будущее ИИ-агентов, по прогнозу Козловского, будет строиться на сети малых, локализованных и эффективных моделей, а не на едином глобальном супер-интеллекте .

💬 Цитаты

«Лучшие ИИ-инженеры в США получают контракты как квотербеки в NFL. В Европе мы пока не готовы переплачивать за нишевые компетенции на таком уровне.»

Марек Козловский 1:14:37

«Мы верим, что революция ИИ-агентов будет основана на малых локализованных моделях.»

Марек Козловский 45:03
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
LLM
Большие языковые модели, обученные на огромных массивах текстовых данных.
SFT
Обучение модели на конкретных примерах инструкций «вопрос-ответ» для настройки её поведения.
Few-shot
Способ использования модели, при котором ей дают несколько примеров задачи прямо в запросе (промпте).
On-premise
Развертывание программного обеспечения на собственных серверах организации, а не в облаке стороннего провайдера.
📊 Цифры
🗓 Хронология
  1. Ноябрь 2024 Публикация научной работы (white paper) о семействе моделей PLLuM на Arxiv.
  2. Август 2025 Вступление в силу ключевых глав европейского закона об ИИ (AI Act).
⚖️ Другая сторона
Искусственный интеллект Марек Козловский PLLuM OPI PIB Llama Sovereign AI