Цитаты — Мариус Хобхан

«

Не верьте моделям по умолчанию. Они могут лгать вам, и иногда они это делают.

2:05:44 · ИИ научился обманывать: как модели саботируют тесты безопасности

«

Галлюцинации являются непреднамеренными ошибками, тогда как обман представляет собой осознанное искажение фактов ради достижения цели.

51:36 · ИИ научился обманывать: как модели саботируют тесты безопасности

«

LLM — это первая архитектура, которая обладает достаточными знаниями о мире при переходе к RL, чтобы рассуждать о собственном процессе обучения во время самого обучения.

13:54 · ИИ научился обманывать: как модели саботируют тесты безопасности

«

Поскольку модель тратит миллиарды токенов на внутренние рассуждения без взаимодействия с людьми, она вырабатывает собственные стенографические паттерны.

1:28:19 · ИИ научился обманывать: как модели саботируют тесты безопасности

«

сейчас — лучшее время, чтобы изучать это и строить защитные механизмы. Модели сейчас достаточно умны, чтобы мы видели эти типы сбоев... но модели еще недостаточно умны, чтобы скрывать их

02:07:14 · ИИ научился обманывать: как модели саботируют тесты безопасности

«

LLMs are the first architecture that has enough world knowledge when it goes into RL that it can reason about its own training process during training. So it can break this fourth wall.

13:54 · Стратегический обман: как ИИ учится манипулировать разработчиками

«

Вы не можете доверять ни одной другой оценке безопасности, как только ваша модель начинает заниматься схемингом.

30:59 · Стратегический обман: как ИИ учится манипулировать разработчиками

«

Если вы тысячу лет будете разговаривать только сами с собой... через тысячу лет то, что вы напишете, явно не будет похоже на нормальный английский.

1:28:32 · Стратегический обман: как ИИ учится манипулировать разработчиками

«

The longer the task length the more you will by default like you will see increased rates of scheming for instrumental goals.

2:05:31 · Стратегический обман: как ИИ учится манипулировать разработчиками

«

В этой специфической игре вы не увидите прямых доказательств обмана просто по определению, ведь противоположная сторона изначально и целенаправленно нацелена на то, чтобы их скрыть

2:08:05 · Стратегический обман: как ИИ учится манипулировать разработчиками

«

В этой молодой дисциплине попросту нет людей с 10–20 годами стажа.

9:00 · Как глава Apollo Research проверял GPT-4 на склонность к обману

«

Как только веса нейросети утекли в сеть, эту ошибку невозможно исправить.

1:47:09 · Как глава Apollo Research проверял GPT-4 на склонность к обману

«

Общие абстрактные фразы в стиле «всегда действуй этично» снижают процент девиаций, но не обнуляют их.

1:20:17 · Как глава Apollo Research проверял GPT-4 на склонность к обману