Сара Хукер: «Вычислительные пороги ИИ — это ошибочная стратегия»

Регулирование ИИ: почему вычислительные пороги — это тупик 2:18

Современные стратегии управления развитием искусственного интеллекта, закрепленные в таких документах, как исполнительный указ правительства США или EU AI Act, опираются на концепцию «вычислительных порогов» (compute thresholds). Суть этой идеи заключается в том, что модели, требующие огромного количества операций с плавающей запятой (FLOPs) при обучении, потенциально несут в себе критические риски, а значит — требуют особого контроля. Однако, как утверждает Сара Хукер, вице-президент по исследованиям Cohere и глава Cohere for AI, попытка свести оценку рисков к одному абсолютному числу FLOPs является фундаментальной ошибкой.

Почему FLOPs — плохой индикатор опасности 8:31

По мнению Хукер, использование единой метрики FLOPs для оценки риска сопряжено с рядом критических проблем:

Игнорирование жизненного цикла: Метрика учитывает только этап предварительного обучения (pre-training), игнорируя дальнейшие критически важные стадии: тонкую настройку (fine-tuning), дистилляцию синтетических данных и методы оптимизации времени вывода (inference-time optimization).
Искажения при мульти-язычности: Попытка обучить модель работать на десятках языков требует больше вычислительных ресурсов из-за необходимости осваивать различные дистрибутивы данных («проклятие мультилингвальности»), что искусственно «штрафует» ответственных разработчиков.
Уязвимость перед манипуляциями: В соответствии с законом Гудхарта, когда целевой показатель становится мерилом успеха, он перестает быть хорошим показателем. Разработчики могут легко сократить количество FLOPs, сохранив высокую производительность модели, что позволяет обходить регуляторные ограничения.

«Горький урок» и проблема предсказаний 16:41

Дискуссия затрагивает эссе Рича Саттона «Горький урок» (The Bitter Lesson), где утверждается, что общие алгоритмы, опирающиеся на вычислительную мощность, в конечном итоге превосходят любые попытки внедрения рукотворных знаний. Ведущий подкаста и Сара Хукер сходятся во мнении: хотя для моделей с текущей архитектурой (Transformers) масштаб действительно имеет значение, проблема в том, что сообщество исследователей слишком сильно «заблокировано» в рамках одной парадигмы.

По словам Хукер, текущие глубокие нейронные сети крайне неэффективны — они вынуждены «прожевывать» огромные объемы данных, чтобы выучить редкие паттерны, часто запоминая то, что нам в итоге не нужно. В результате, вместо обучения интеллектуальной системе приходится заниматься «разучиванием» (unlearning) и фильтрацией данных, чтобы направить модель в нужное русло.

Альтернатива: активная наследственность и многоцелевая оптимизация 41:45

Для решения проблем, связанных с «длинным хвостом» (редкими, но важными данными, которые современные модели часто игнорируют), Хукер предлагает концепцию активной наследственности (active inheritance). Вместо слепого доверия к одному «учителю» (модели), предлагается:

Выборка данных из различных моделей, ориентированных на разные части задачи.
Использование недифференцируемых целевых показателей (например, уровень сложности текста или педагогическая ценность), которые ранее были недоступны для градиентного спуска.
Отказ от модели «единого порога риска» в пользу систем многоцелевой оптимизации, способных учитывать как глобальные нормы безопасности, так и культурную специфику регионов.

Хукер подчеркивает, что вместо стратегии отказа (refusal), когда модель просто «молчит» в ответ на спорный вопрос, индустрии следует двигаться в сторону предоставления ресурсов и контекстуально обоснованных ответов. Она заключает, что будущее ИИ-безопасности лежит в создании более гибких и прозрачных систем, а не в искусственном ограничении вычислительной мощности.