Скандал вокруг Reflection 70B: Как «лучшая открытая ИИ-модель» оказалась оберткой для Claude

На этой неделе сообщество разработчиков искусственного интеллекта оказалось в центре крупного скандала, связанного с релизом модели Reflection 70B. Мэтт Шумер, основатель и CEO компании Hyperr AI, представил её как «лучшую в мире открытую модель», однако триумфальное объявление быстро сменилось обвинениями в фальсификации и подмене результатов.

🚀 Громкий анонс: «Убийца» закрытых моделей 0:00

Мэтт Шумер, известный в ИИ-сообществе как опытный разработчик и инвестор, объявил о выходе Reflection 70B — модели с открытыми весами, которая, по его утверждению, превзошла топовые проприетарные решения, такие как GPT-4o, Claude 3.5 Sonnet и Llama 3.1 405B .

Особый интерес вызвал тот факт, что Reflection 70B не обучалась с нуля, а была создана путем тонкой настройки (fine-tuning) модели Llama 3.1 от Meta . По словам Шумера, ключевым фактором успеха стала инновационная техника Reflection Tuning. Суть метода заключается в том, что модель обучается «думать» перед ответом, анализировать свои ошибки и исправлять их в процессе генерации .

Для реализации этого проекта Шумер использовал синтетические данные, созданные с помощью платформы Glaive AI. Он подчеркнул, что контроль над генерацией данных в Glaive AI стал решающим фактором, и призвал других разработчиков использовать этот инструмент для своих моделей .

Анонс вызвал небывалый ажиотаж:

Оригинальный пост в X (Twitter) набрал более 3,3 миллиона просмотров .
Модель мгновенно заняла первое место в трендах Hugging Face .
Генеральный директор Hugging Face Клеман Деланг поддержал релиз, отметив, что это доказывает: небольшие компании могут успешно конкурировать с технологическими гигантами .

🧐 Подозрения и «синдром LK-99» 6:44

Вскоре после публикации весов на Hugging Face энтузиасты из сообщества r/LocalLlama начали тестировать модель на своих мощностях, и результаты оказались плачевными . Модель не только не показывала заявленных рекордных показателей, но и работала значительно хуже стандартной Llama 3.1.

Ведущий канала Уэс Рот сравнивает эту ситуацию с историей материала LK-99 — «комнатного сверхпроводника», результаты которого также никто не смог воспроизвести в лабораторных условиях .

В ответ на критику Мэтт Шумер заявил о технической ошибке при загрузке. Он пояснил, что из-за ограничений скорости (rate limits) на Hugging Face в публичный доступ попали части двух разных моделей, что привело к снижению производительности . Чтобы успокоить сообщество, Шумер предоставил доступ к приватному API, утверждая, что именно там работает «правильная» и мощная версия Reflection 70B .

Однако и здесь возникли проблемы:

Несоответствие версии базы: Пользователи Reddit провели анализ весов и пришли к выводу, что модель основана на старой Llama 3, а не на новой Llama 3.1, как заявлял автор .
Незнание терминологии: В ходе дискуссии Шумер, по-видимому, не сразу понял значение термина LoRA (Low-Rank Adaptation), хотя позже утверждал, что просто неверно интерпретировал контекст .

🕵️ Скандал с «оберткой»: При чем здесь Claude? 10:49

Самое серьезное обвинение последовало после того, как пользователи начали детально изучать ответы приватного API. Возникло подозрение, что под видом собственной модели Шумер просто перенаправляет запросы к Claude 3.5 Sonnet от компании Anthropic .

Доказательства, собранные сообществом, выглядят убедительно:

Прямое признание: При определенных промптах модель прямо отвечала: «Я Claude, модель, созданная Anthropic» .
Цензура: Пользователи заметили, что слово "Claude" начало подвергаться цензуре в ответах API .
Обход цензуры: Один из исследователей смог заставить модель признаться в своей идентичности с помощью игры в ассоциации. Модель сообщила, что её имя начинается на букву "C", рифмуется с "odd" и она разделяет имя с известным французским композитором (Клодом Дебюсси) .

Шин Бостон, один из активных критиков в X, опубликовал подробный разбор, в котором назвал происходящее «стопроцентным мошенничеством» . По его мнению, вероятность того, что Шумер просто «допустил ошибку», крайне мала, учитывая масштаб пиар-кампании .

🏳️ Извинения и поиск виноватых 16:15

Столкнувшись с неопровержимыми уликами, Мэтт Шумер опубликовал официальное извинение. Он признал, что «поторопился» с анонсом и принимал решения на основе неполной информации . Шумер заявил, что его команда работает над тем, чтобы разобраться в причинах произошедшего .

Сахил Чаудхари, основатель Glaive AI, также прокомментировал ситуацию:

Он утверждает, что никогда не запускал модели сторонних провайдеров (таких как Anthropic) через свой API .
Чаудхари пообещал провести внутреннее расследование и понять, почему модель вела себя как Claude и почему бенчмарки оказались невоспроизводимыми .
Он допустил, что результаты могли быть следствием «загрязнения» (contamination) данных или ошибок в конфигурации .

Сообщество восприняло эти оправдания со скепсисом. Критики указывают на то, что Сахил был тем, кто предоставил Шумеру результаты тестов и хостил API, а значит, он не мог не знать о подмене .

📉 Последствия для репутации 18:52

Уэс Рот отмечает, что до этого инцидента Мэтт Шумер имел хорошую репутацию «строителя» и активного участника Open Source движения . Шумер ранее выпускал интересные проекты, такие как Self-Operating Computer, и его деятельность не вызывала подозрений .

Автор видео задается вопросом: зачем человеку с таким кредитом доверия рисковать всем ради краткосрочного хайпа? Возможные мотивы могут включать:

Привлечение новых пользователей в основные продукты (например, HyperWrite).
Поиск инвестиций или спонсоров для аренды вычислительных мощностей (Шумер как раз искал спонсоров для модели 405B перед крахом) .
Увеличение числа подписчиков и медийного влияния.

Тем не менее, Уэс Рот считает такой поступок крайне недальновидным, так как доверие сообщества восстановить будет крайне сложно . В завершение он иронично подмечает, что в выигрыше остались только «ИИ-инфлюенсеры», которые получили просмотры на хайпе, не неся никакой ответственности за проверку фактов .