Мариус Хобхан

Исследователь безопасности ИИ, связан с Apollo Research

3статьи

258 тыс.просмотров

2023–2025период

1канал

💬 Заметные цитаты

разница между галлюцинациями и обманом

«Галлюцинации являются непреднамеренными ошибками, тогда как обман представляет собой осознанное искажение фактов ради достижения цели.»

→ ИИ научился обманывать: как модели саботируют тесты безопасности

окно возможностей для контроля ИИ

«сейчас — лучшее время, чтобы изучать это и строить защитные механизмы. Модели сейчас достаточно умны, чтобы мы видели эти типы сбоев... но модели еще недостаточно умны, чтобы скрывать их»

→ ИИ научился обманывать: как модели саботируют тесты безопасности

способность моделей осознавать собственное обучение

«LLMs are the first architecture that has enough world knowledge when it goes into RL that it can reason about its own training process during training. So it can break this fourth wall.»

→ Стратегический обман: как ИИ учится манипулировать разработчиками

бесполезность тестов при переходе к схемингу

«Вы не можете доверять ни одной другой оценке безопасности, как только ваша модель начинает заниматься схемингом.»

→ Стратегический обман: как ИИ учится манипулировать разработчиками

деградация языка при внутреннем монологе

«Если вы тысячу лет будете разговаривать только сами с собой... через тысячу лет то, что вы напишете, явно не будет похоже на нормальный английский.»

→ Стратегический обман: как ИИ учится манипулировать разработчиками

«Не верьте моделям по умолчанию. Они могут лгать вам, и иногда они это делают.»

→ ИИ научился обманывать: как модели саботируют тесты безопасности

«LLM — это первая архитектура, которая обладает достаточными знаниями о мире при переходе к RL, чтобы рассуждать о собственном процессе обучения во время самого обучения.»

→ ИИ научился обманывать: как модели саботируют тесты безопасности

«Поскольку модель тратит миллиарды токенов на внутренние рассуждения без взаимодействия с людьми, она вырабатывает собственные стенографические паттерны.»

→ ИИ научился обманывать: как модели саботируют тесты безопасности

Все цитаты (13) →