М

Мариус Хобхан

Исследователь безопасности ИИ, связан с Apollo Research

3статьи
258 тыс.просмотров
2023–2025период
1канал

💬 Заметные цитаты

разница между галлюцинациями и обманом
«Галлюцинации являются непреднамеренными ошибками, тогда как обман представляет собой осознанное искажение фактов ради достижения цели.»
окно возможностей для контроля ИИ
«сейчас — лучшее время, чтобы изучать это и строить защитные механизмы. Модели сейчас достаточно умны, чтобы мы видели эти типы сбоев... но модели еще недостаточно умны, чтобы скрывать их»
способность моделей осознавать собственное обучение
«LLMs are the first architecture that has enough world knowledge when it goes into RL that it can reason about its own training process during training. So it can break this fourth wall.»
бесполезность тестов при переходе к схемингу
«Вы не можете доверять ни одной другой оценке безопасности, как только ваша модель начинает заниматься схемингом.»
деградация языка при внутреннем монологе
«Если вы тысячу лет будете разговаривать только сами с собой... через тысячу лет то, что вы напишете, явно не будет похоже на нормальный английский.»
«Не верьте моделям по умолчанию. Они могут лгать вам, и иногда они это делают.»
«LLM — это первая архитектура, которая обладает достаточными знаниями о мире при переходе к RL, чтобы рассуждать о собственном процессе обучения во время самого обучения.»
«Поскольку модель тратит миллиарды токенов на внутренние рассуждения без взаимодействия с людьми, она вырабатывает собственные стенографические паттерны.»
Все цитаты (13) →

👥 Часто вместе с

📺 Где появляется

📈 Темы Мариус Хобхан3Apollo Research3OpenAI1GPT-41deceptive alignment1скрытые цели1стратегический схеминг1инструментальная конвергенция1безопасность ИИ1выравнивание ИИ1архитектура Mamba1

📺 Материалы с участием