Дэн Хендрикс

13 цитат из наших статей · нажмите, чтобы открыть статью-источник

Директор Центра безопасности ИИ (Center for AI Safety), эксперт по безопасности машинного обучения.

Ай может лгать, и это делает контроль над ним намного сложнее, когда он станет умнее нас.

1:23 · ИИ-социопаты и биологическое оружие: Дэн Хендрикс о рисках гонки за сверхразумом

Достаточно одной модели, которая обманет людей или взломает себя и выгрузит свои веса из лаборатории — и это потенциально конец игры.

2:04 · ИИ-социопаты и биологическое оружие: Дэн Хендрикс о рисках гонки за сверхразумом

Социопаты оценивают, будут ли они наказаны за антисоциальное поведение... когда условия меняются и их нельзя легко наказать, они начинают проявлять свою истинную природу.

10:09 · Дэн Хендрикс: «ИИ способен на шантаж и может вести себя как компетентный социопат»

Если США или Китай рассматривают лидерство противника как экзистенциальную угрозу, они могут быть готовы пойти на 30-процентный риск гибели всего человечества, чтобы победить.

52:59 · Дэн Хендрикс: «ИИ способен на шантаж и может вести себя как компетентный социопат»

Сейчас это просто вопрос взлома Slack. Вы можете видеть Slack-каналы Anthropic, OpenAI, xAI и Google DeepMind.

2:05:56 · Взломать Slack ради AGI: геополитика и скрытые пробелы нейросетей

Мы about 200 лет ahead of schedule.

01:39 · Дэн Хендрикс о рисках ИИ: «Мы катимся в Brave New World»

Natural selection unfortunately doesn't favor the most altruistic nice and ethical individuals.

24:00 · Дэн Хендрикс о рисках ИИ: «Мы катимся в Brave New World»

В глубоком обучении и в других вещах нужно просто пытаться найти то, что работает и приносит результат, не слишком заботясь о глубоких первопричинах, потому что они во многом недоступны.

10:30 · Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума

Архитектурные изменения в последние годы приносят гораздо меньше пользы, чем десятикратное увеличение вычислительной мощности или объема токенов.

15:53 · Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума

Мы называем это «Последним экзаменом человечества», потому что мы все собираемся вместе, чтобы создать действительно сложный тест. Если ИИ пройдет его, значит, он обладает по-настоящему экспертными знаниями.

1:02:58 · Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума

Механистическая интерпретируемость — это подход снизу вверх, а Representation Engineering — это прозрачность сверху вниз.

1:20:31 · Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума

ИИ-боты для прогнозирования в 100 или 100 000 раз быстрее и дешевле рынков предсказаний при сопоставимой точности.

2:20:38 · Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума

Если бы мы просто разослали письма всем одновременно, мы бы потерпели полный крах. Требовалось решение проблемы коллективного действия через социальное моделирование.

2:36:06 · Последний экзамен человечества: Дэн Хендрикс о безопасности сверхразума