Дегер Туран: как ИИ-турниры и Metaculus меняют механизмы принятия решений и эпистемическую безопасность

В новом выпуске подкаста «The Cognitive Revolution» Дегер Туран (Deger Turan), недавно назначенный CEO платформы Metaculus, обсуждает будущее «эпистемической безопасности» и роль ИИ в прогнозировании. Дегер Туран делится планами по превращению платформы в «Википедию будущего» и анонсирует масштабный турнир по ИИ-прогнозированию с призовым фондом в 120 000 долларов, стремясь создать инструменты для более качественного коллективного принятия решений.

🧠 Путь от анализа данных к эпистемической безопасности 5:01

Дегер Туран пришел в сферу прогнозирования из области исследований коллективного интеллекта. Ещё в 2016 году, работая в Стэнфордском университете вместе с Дэном Джурафски (Dan Jurafsky), он занимался анализом обратной связи для федеральных агентств . В частности, они изучали 2 миллиона комментариев, поданных в FCC по вопросу сетевого нейтралитета — на тот момент это был крупнейший массив текстовых данных .

Уже тогда Туран столкнулся с проблемой «закона Гудхарта» (когда мера становится целью, она перестает быть хорошей мерой) и сложностью агрегации качественных мнений . До прихода в Metaculus он руководил некоммерческой лабораторией AI Objectives Institute, где занимался вопросами социотехнического выравнивания (alignment) ИИ .

По мнению Дегера Турана, даже идеальное выявление предпочтений людей не гарантирует благих результатов, если мы не понимаем, какие действия приведут к желаемым исходам . Это привело его к прогнозированию как к способу построения надежных мировых моделей. Сегодня он видит Metaculus не просто как сайт для ставок, а как платформу для обеспечения «эпистемической безопасности» общества .

📊 Metaculus vs Рынки предсказаний: Инцентивы и механика 22:59

Дегер Туран четко разграничивает Metaculus и популярные рынки предсказаний (такие как PolyMarket или Manifold). Главное отличие заключается в системе стимулов:

Отсутствие финансового риска: На Metaculus нет денежных ставок в классическом понимании, что избавляет систему от логики «игры с нулевой суммой» .
Стимул к точности, а не прибыли: На рынках предсказаний у участника нет стимула добавлять информацию, если текущая цена уже отражает его мнение. На Metaculus участники соревнуются за долгосрочный рейтинг и калибровку .
Репутация и работа: Успешные участники (про-прогнозисты) могут получить оплачиваемую работу по контрактам с хедж-фондами, государственными агентствами или филантропами .

Ключевым инструментом платформы является «Прогноз сообщества» (Community Prediction) — взвешенное среднее всех индивидуальных прогнозов, где больший вес имеют участники с лучшим послужным списком и более свежие данные .

Дегер Туран утверждает, что такой подход делает Metaculus более строгим и научно обоснованным по сравнению с чисто рыночными платформами . Платформа уже доказала свою эффективность:

В эпидемиологии прогнозы Metaculus по COVID-19 превзошли экспертные панели в вопросах распределения ресурсов в больницах .
В январе 2020 года, когда общее мнение гласило, что COVID-19 не будет значительным, Metaculus предсказывал более 100 000 зараженных .
Один из пользователей из Украины сообщил, что эвакуировался из Киева во Львов 13 февраля 2022 года исключительно на основе прогнозов платформы о российском вторжении .

🤖 ИИ в прогнозировании: Текущее состояние и возможности 50:07

Ведущий Натан Лабенц и Дегер Туран обсудили последние научные работы, доказывающие, что ИИ стремительно догоняет людей в точности прогнозов . Были выделены три ключевых исследования:

Hallow (лаборатория Штейнхардта): Система на базе LLM с инструментами поиска в интернете показала результаты, близкие к «прогнозу сообщества», хотя и немного уступила лучшим людям .
«Мудрость кремниевой толпы» (Тетлок и соавт.): Исследование показало, что ансамбль различных языковых моделей дает более точный прогноз, чем каждая модель в отдельности .
ИИ как ассистент: Использование ИИ-помощников улучшает качество прогнозов людей, даже если ИИ намеренно смещен в оценках .

Дегер Туран отмечает, что ИИ уже обладает сверхчеловеческой способностью к масштабированию и обработке гигантских массивов новостей . Однако модели всё ещё страдают от логических несоответствий. Например, в вопросе о случаях кори боты могли оценить вероятность «менее 200 случаев» в 70% и «более 300 случаев» в 70%, что математически невозможно .

Для решения этих проблем Туран предлагает внедрять «модельно-ориентированное мышление» (model-based reasoning), где LLM будет использовать формальные языки программирования для проверки своих догадок на логическую непротиворечивость .

🏆 Большой турнир: AI Forecasting Benchmark 1:03:51

Metaculus запускает масштабное соревнование AI Forecasting Benchmark с общим призовым фондом 120 000 долларов .

Основные параметры турнира:

Длительность: Соревнование продлится один год, призы распределяются ежеквартально .
Задачи: Каждый квартал ботам предлагается от 250 до 400 бинарных вопросов (ответ «да/нет») на актуальные темы .
Участники: Только автоматизированные системы без участия человека в процессе принятия конкретного решения (human-out-of-the-loop) .
Стимулы: OpenAI и Anthropic выделили значительные гранты на API-кредиты для участников турнира .

Дегер Туран подчеркивает, что цель турнира — не просто выявить лучшую модель, а понять, какие стратегии работают. Участники обязаны публиковать «рассуждения» (reasoning) своих ботов, чтобы организаторы могли анализировать их логику .

Система оценки строится на логарифмической функции потерь (log loss) по сравнению с подбрасыванием монеты. Это заставляет ботов быть честными в оценке вероятностей и не поощряет чрезмерную самоуверенность .

🔍 Проблема AGI и точность определений 37:31

Одной из самых популярных тем на Metaculus являются сроки появления AGI (сильного искусственного интеллекта). Однако Туран признает, что старые формулировки вопросов от 2020 года начинают устаревать.

Например, критерий прохождения теста Тюринга сейчас вызывает споры. Натан Лабенц утверждает, что ИИ уже мог бы пройти тест Тюринга, если бы разработчики намеренно сделали его «глупее», заставив чаще отвечать «я не знаю» и имитировать человеческую неосведомленность .

Дегер Туран согласен, что имитация — это низкая планка. Он считает, что истинный AGI должен уметь разрешать глубокие человеческие конфликты (например, вопрос статуса Иерусалима) через построение общих мировых моделей, а не просто убедительно имитировать собеседника .

🌐 Будущее: Открытый код и «Talk to the City» 1:31:38

Metaculus планирует в ближайшее время открыть исходный код своей платформы . Это позволит организациям создавать собственные инстансы — «мини-метакулусы» для решения узкоспециализированных задач, таких как распределение городского бюджета или научные исследования в биотехе .

Туран также рассказал о своем предыдущем проекте «Talk to the City». Это ИИ-платформа, которая агрегирует качественную обратную связь от тысяч людей (например, через видео или длинные тексты) и кластеризует их мнения, позволяя политикам видеть реальную структуру дискуссии, а не просто средний балл .

Критика «иллюзии консенсуса»: По мнению Дегера Турана, современная политика стремится к «наименьшему общему знаменателю», что рождает слабые и бесполезные решения. Например, все могут согласиться, что нужны велодорожки, но как только доходит до конкретной улицы, консенсус исчезает .

ИИ должен помогать не находить фальшивое согласие, а выявлять «пункты расхождения» (cruxes). Если два человека поймут, что их спор о политике вызван разным видением одного базового факта, они смогут заказать прогноз на этот факт и тем самым разрешить спор рационально .