# Марек Козловский о суверенном ИИ: «Американские модели деградируют в поддержке малых языков»

Источник: https://www.youtube.com/watch?v=KVos1kBh234
Канал: The Cognitive Revolution
Опубликовано: 06.12.2025

---

В условиях глобальной гонки вооружений в сфере искусственного интеллекта Польша выбирает путь создания «суверенного ИИ», ориентированного на культурную аутентичность и экономическую эффективность. Марек Козловский, руководитель лаборатории ИИ в OPI PIB, возглавляет проект PLLuM — амбициозную инициативу по разработке польских больших языковых моделей. В интервью Натану Лабенцу он объясняет, почему локальные модели, которые в десятки раз меньше разработок OpenAI или Google, могут превзойти гигантов в специфических национальных задачах и обеспечить технологическую независимость Европы.

## 🇵🇱 Суть суверенного ИИ и проект PLLuM
[[JUMP:04:23]]

Марек Козловский предпочитает использовать термин «локализованные LLM» вместо «национальных», подчеркивая, что речь идет об адаптации моделей под конкретный язык или домен [04:50]. Главная цель проекта PLLuM (Polish Large Language Models) — создать открытые, прозрачные и безопасные модели, которые на порядок меньше популярных проприетарных систем, но при этом обеспечивают сопоставимое или более высокое качество понимания польского языка и культуры [05:58].

Ключевые принципы проекта:

*   **Прозрачность:** Опубликован «рецепт» создания (white paper на 100 страниц) и образцы обучающих данных [16:17].
*   **Органичность:** Приоритет отдается данным, созданным людьми, а не синтетическим текстам от других ИИ [19:13].
*   **Безопасность:** Локальная настройка защиты от атак (jailbreaking), специфичных для польского контекста [20:06].

Проект реализуется консорциумом из шести (позже расширен до восьми) институтов и университетов при поддержке Министерства цифровизации Польши [57:36]. По словам Марека Козловского, это общественная инициатива, где успех измеряется не прибылью, а степенью открытости и пользы для государственного сектора.

## 🗣️ Проблема «англоцентричности» глобальных моделей
[[JUMP:08:09]]

По оценке Марека Козловского, более 90% тренировочных данных во фронтирных моделях (таких как GPT-4 или Llama) приходятся на английский и китайский языки [08:09]. Доля польского языка в таких корпусах часто составляет менее 1% [08:34]. Хотя современные LLM демонстрируют поразительные способности к переносу знаний (transfer learning), они часто допускают тонкие культурные и стилистические ошибки.

Марек Козловский приводит в пример написание электронных писем:

*   Модели часто используют кальки с английских фраз, например: «Надеюсь, вы пребываете в добром здравии» [10:27].
*   Такие фразы понятны, но звучат неестественно для носителя польского языка и культуры [10:40].
*   Существующие бенчмарки (например, MMLU) часто проверяют только выбор вариантов ответа (A, B, C, D), но не оценивают способность модели генерировать длинные, связные тексты с соблюдением национальных нюансов [11:17].

Для решения этой проблемы команда PLLuM создала собственный бенчмарк — PLCC (Polish Linguistic and Cultural Competency), который оценивает знание грамматики, традиций, истории и использование идиом в контексте [12:13].

## 🛠️ Техническая стратегия: адаптация вместо обучения с нуля
[[JUMP:58:31]]

Обучение мощной модели с нуля требует огромного количества данных — не менее 1 триллиона токенов для стабильного результата [58:44]. После очистки и дедупликации всего польского сегмента интернета в распоряжении команды PLLuM оказалось лишь около 200 миллиардов токенов [59:11]. Этого недостаточно для качественного претрейнинга с «рандомных весов».

Стратегия команды заключается в «языковой адаптации» (language adaptation) существующих базовых моделей, таких как Llama или Mistral [59:23]:

1.  **Продолжение претрейнинга:** Модель дообучается на польском корпусе текстов.
2.  **Проблема забывания:** В процессе адаптации модель может терять часть навыков в других языках, но это осознанный компромисс ради улучшения польского [1:00:45].
3.  **SFT и выравнивание:** Следующие этапы включают обучение на инструкциях (Supervised Fine-Tuning) и настройку предпочтений (Alignment) [17:25].

Марек Козловский подчеркивает важность ручного труда: над проектом работают сотни редакторов, создающих органические инструкции, чтобы избежать деградации модели, которая часто случается при обучении на синтетических данных от других ИИ [19:13].

## ⚖️ Регуляция и «кража» данных американскими компаниями
[[JUMP:33:57]]

Европейские разработчики ИИ находятся под жестким давлением регуляций, таких как EU AI Act и законы об авторском праве [33:57]. Марек Козловский утверждает, что эти правила могут лишить разработчиков доступа к 80% данных для обучения [35:12]. 

В то же время наблюдается «регуляторный арбитраж»:

*   Американские компании активно собирают польские данные, часто игнорируя запреты (robots.txt) [40:31].
*   По мнению гостя, такие компании, как Anthropic или OpenAI, уже обладают примерно 80–90% доступных польских данных [41:11].
*   При этом новые версии западных моделей (например, семейства Claude) иногда демонстрируют *ухудшение* качества польского языка [50:36]. Марек Козловский связывает это с тем, что разработчики жертвуют поддержкой нишевых языков ради улучшения навыков программирования или математики [51:15].

## 💼 Экономика и преимущества локального контроля
[[JUMP:45:03]]

Одной из главных движущих сил суверенного ИИ является потребность бизнеса и госсектора в локальных решениях (on-premise). Многие организации не могут использовать облачные API из-за рисков безопасности или законодательных ограничений [45:16].

Преимущества малых специализированных моделей, по мнению Марека Козловского:

1.  **Стоимость и энергия:** Содержать модель на 16 GPU гораздо дешевле, чем огромные системы, требующие гигантских ЦОДов [45:42].
2.  **Специализация:** Бизнесу часто не нужен универсальный «ChatGPT на все случаи жизни», а достаточно высокого качества в 10–20 конкретных задачах [46:06].
3.  **Эффективность:** Дообученная (fine-tuned) малая модель на 1000 качественных инструкциях может работать не хуже или лучше, чем огромная модель в режиме «few-shot» через облако [48:54].

Пример из практики: крупнейший банк Центральной и Восточной Европы PKO провел «доменную адаптацию» моделей на своих внутренних данных [1:04:25]. Марек Козловский отмечает, что для успеха такой адаптации компании нужно иметь не менее 10 миллиардов уникальных токенов в своей корпоративной памяти (после очистки и дедупликации) [1:05:05].

## 🌍 Геополитика и будущее талантов
[[JUMP:1:14:10]]

Марек Козловский признает, что Европа не может конкурировать с США по уровню зарплат ИИ-инженеров, которых он сравнивает с «игроками NFL» или звездными квотербеками по уровню контрактов [1:14:24]. Однако Польша фокусируется на создании собственных «фабрик ИИ» — закупке GPU и строительстве дата-центров [1:13:31].

Оба собеседника сошлись во мнении, что развитие технологий ИИ может выйти на плато [1:16:48]. Марек Козловский считает, что сейчас наступает «стадия верификации», когда компании начинают считать реальную стоимость инструментов и понимать, что гигантские LLM не всегда целесообразны [1:18:37].

Будущее ИИ-агентов, по прогнозу Козловского, будет строиться на сети малых, локализованных и эффективных моделей, а не на едином глобальном супер-интеллекте [44:50].