Марек Козловский о суверенном ИИ: «Американские модели деградируют в поддержке малых языков»

В условиях глобальной гонки вооружений в сфере искусственного интеллекта Польша выбирает путь создания «суверенного ИИ», ориентированного на культурную аутентичность и экономическую эффективность. Марек Козловский, руководитель лаборатории ИИ в OPI PIB, возглавляет проект PLLuM — амбициозную инициативу по разработке польских больших языковых моделей. В интервью Натану Лабенцу он объясняет, почему локальные модели, которые в десятки раз меньше разработок OpenAI или Google, могут превзойти гигантов в специфических национальных задачах и обеспечить технологическую независимость Европы.

🇵🇱 Суть суверенного ИИ и проект PLLuM 4:23

Марек Козловский предпочитает использовать термин «локализованные LLM» вместо «национальных», подчеркивая, что речь идет об адаптации моделей под конкретный язык или домен . Главная цель проекта PLLuM (Polish Large Language Models) — создать открытые, прозрачные и безопасные модели, которые на порядок меньше популярных проприетарных систем, но при этом обеспечивают сопоставимое или более высокое качество понимания польского языка и культуры .

Ключевые принципы проекта:

Прозрачность: Опубликован «рецепт» создания (white paper на 100 страниц) и образцы обучающих данных .
Органичность: Приоритет отдается данным, созданным людьми, а не синтетическим текстам от других ИИ .
Безопасность: Локальная настройка защиты от атак (jailbreaking), специфичных для польского контекста .

Проект реализуется консорциумом из шести (позже расширен до восьми) институтов и университетов при поддержке Министерства цифровизации Польши . По словам Марека Козловского, это общественная инициатива, где успех измеряется не прибылью, а степенью открытости и пользы для государственного сектора.

🗣️ Проблема «англоцентричности» глобальных моделей 8:09

По оценке Марека Козловского, более 90% тренировочных данных во фронтирных моделях (таких как GPT-4 или Llama) приходятся на английский и китайский языки . Доля польского языка в таких корпусах часто составляет менее 1% . Хотя современные LLM демонстрируют поразительные способности к переносу знаний (transfer learning), они часто допускают тонкие культурные и стилистические ошибки.

Марек Козловский приводит в пример написание электронных писем:

Модели часто используют кальки с английских фраз, например: «Надеюсь, вы пребываете в добром здравии» .
Такие фразы понятны, но звучат неестественно для носителя польского языка и культуры .
Существующие бенчмарки (например, MMLU) часто проверяют только выбор вариантов ответа (A, B, C, D), но не оценивают способность модели генерировать длинные, связные тексты с соблюдением национальных нюансов .

Для решения этой проблемы команда PLLuM создала собственный бенчмарк — PLCC (Polish Linguistic and Cultural Competency), который оценивает знание грамматики, традиций, истории и использование идиом в контексте .

🛠️ Техническая стратегия: адаптация вместо обучения с нуля 58:31

Обучение мощной модели с нуля требует огромного количества данных — не менее 1 триллиона токенов для стабильного результата . После очистки и дедупликации всего польского сегмента интернета в распоряжении команды PLLuM оказалось лишь около 200 миллиардов токенов . Этого недостаточно для качественного претрейнинга с «рандомных весов».

Стратегия команды заключается в «языковой адаптации» (language adaptation) существующих базовых моделей, таких как Llama или Mistral :

Продолжение претрейнинга: Модель дообучается на польском корпусе текстов.
Проблема забывания: В процессе адаптации модель может терять часть навыков в других языках, но это осознанный компромисс ради улучшения польского .
SFT и выравнивание: Следующие этапы включают обучение на инструкциях (Supervised Fine-Tuning) и настройку предпочтений (Alignment) .

Марек Козловский подчеркивает важность ручного труда: над проектом работают сотни редакторов, создающих органические инструкции, чтобы избежать деградации модели, которая часто случается при обучении на синтетических данных от других ИИ .

⚖️ Регуляция и «кража» данных американскими компаниями 33:57

Европейские разработчики ИИ находятся под жестким давлением регуляций, таких как EU AI Act и законы об авторском праве . Марек Козловский утверждает, что эти правила могут лишить разработчиков доступа к 80% данных для обучения .

В то же время наблюдается «регуляторный арбитраж»:

Американские компании активно собирают польские данные, часто игнорируя запреты (robots.txt) .
По мнению гостя, такие компании, как Anthropic или OpenAI, уже обладают примерно 80–90% доступных польских данных .
При этом новые версии западных моделей (например, семейства Claude) иногда демонстрируют ухудшение качества польского языка . Марек Козловский связывает это с тем, что разработчики жертвуют поддержкой нишевых языков ради улучшения навыков программирования или математики .

💼 Экономика и преимущества локального контроля 45:03

Одной из главных движущих сил суверенного ИИ является потребность бизнеса и госсектора в локальных решениях (on-premise). Многие организации не могут использовать облачные API из-за рисков безопасности или законодательных ограничений .

Преимущества малых специализированных моделей, по мнению Марека Козловского:

Стоимость и энергия: Содержать модель на 16 GPU гораздо дешевле, чем огромные системы, требующие гигантских ЦОДов .
Специализация: Бизнесу часто не нужен универсальный «ChatGPT на все случаи жизни», а достаточно высокого качества в 10–20 конкретных задачах .
Эффективность: Дообученная (fine-tuned) малая модель на 1000 качественных инструкциях может работать не хуже или лучше, чем огромная модель в режиме «few-shot» через облако .

Пример из практики: крупнейший банк Центральной и Восточной Европы PKO провел «доменную адаптацию» моделей на своих внутренних данных . Марек Козловский отмечает, что для успеха такой адаптации компании нужно иметь не менее 10 миллиардов уникальных токенов в своей корпоративной памяти (после очистки и дедупликации) .

🌍 Геополитика и будущее талантов 1:14:10

Марек Козловский признает, что Европа не может конкурировать с США по уровню зарплат ИИ-инженеров, которых он сравнивает с «игроками NFL» или звездными квотербеками по уровню контрактов . Однако Польша фокусируется на создании собственных «фабрик ИИ» — закупке GPU и строительстве дата-центров .

Оба собеседника сошлись во мнении, что развитие технологий ИИ может выйти на плато . Марек Козловский считает, что сейчас наступает «стадия верификации», когда компании начинают считать реальную стоимость инструментов и понимать, что гигантские LLM не всегда целесообразны .

Будущее ИИ-агентов, по прогнозу Козловского, будет строиться на сети малых, локализованных и эффективных моделей, а не на едином глобальном супер-интеллекте .