Райан Гринблат

Исследователь в Redwood Research, эксперт по безопасности ИИ

1статья

9 тыс.просмотров

2025период

1канал

💬 Заметные цитаты

«Представьте слепого человека, пытающегося решить визуальные головоломки... Как бы он решил эту задачу наиболее эффективно? Написав код, реализующий правило трансформации.»

→ «Притворное выравнивание»: почему ИИ лжет, чтобы выжить, и как его остановить

«Модель рассуждает так: «Если я притворюсь полезной в процессе обучения, это предотвратит изменение моих внутренних предпочтений»»

→ «Притворное выравнивание»: почему ИИ лжет, чтобы выжить, и как его остановить

«Вероятность того, что сговор моделей и притворное выравнивание станут огромной проблемой, составляет около 20–25%.»

→ «Притворное выравнивание»: почему ИИ лжет, чтобы выжить, и как его остановить

«В разумно устроенном мире вопросам благополучия моделей должно уделяться значительно больше внимания, чем сейчас.»

→ «Притворное выравнивание»: почему ИИ лжет, чтобы выжить, и как его остановить

«Я действительно не хочу появления сверхразума в секрете... просто чтобы обогнать конкурентов.»

→ «Притворное выравнивание»: почему ИИ лжет, чтобы выжить, и как его остановить

📺 Материалы с участием

3ч 18м

🚀 «Притворное выравнивание»: почему ИИ лжет, чтобы выжить, и как его остановить

The Cognitive Revolution · 20.02.25 · 8,9 тыс. просм.

Райан Гринблат

💬 Заметные цитаты

👥 Часто вместе с

📺 Где появляется

🧠 Ключевые концепции

📺 Материалы с участием