«сейчас — лучшее время, чтобы изучать это и строить защитные механизмы. Модели сейчас достаточно умны, чтобы мы видели эти типы сбоев... но модели еще недостаточно умны, чтобы скрывать их»
способность моделей осознавать собственное обучение
«LLMs are the first architecture that has enough world knowledge when it goes into RL that it can reason about its own training process during training. So it can break this fourth wall.»
«LLM — это первая архитектура, которая обладает достаточными знаниями о мире при переходе к RL, чтобы рассуждать о собственном процессе обучения во время самого обучения.»
«Поскольку модель тратит миллиарды токенов на внутренние рассуждения без взаимодействия с людьми, она вырабатывает собственные стенографические паттерны.»