The AI Reasoning Revolution with Ought's Jungwon Byun and Andreas Stuhlmüller

The Cognitive Revolution 1,1 тыс. 1 ч 56 мин 3 мин 06.04.2023

Революция в области ИИ-рассуждений (AI reasoning) обещает изменить то, как мы работаем с информацией и принимаем сложные решения. Основатели компании Ought Джунгвон Бюн и Андреас Штульмюллер разрабатывают механизмы делегирования открытых когнитивных задач машинам, делая ставку не на финальный результат, а на прозрачность самого процесса мышления. В центре их экосистемы — продукт Elicit, который уже сегодня помогает тысячам исследователей автоматизировать обзор научной литературы и анализ данных.

🧠 Проблема «прокси-целей» и ловушка имитации 4:50

Андреас Штульмюллер утверждает, что до сих пор машинное обучение (ML) было эффективно в двух сферах: имитация человеческого поведения (генерация текста) и оптимизация вознаграждения в четко заданных рамках (игры вроде го). Однако в задачах, требующих глубоких раздумий и принятия обоснованных решений, «правильного» объективного вознаграждения не существует.

По мнению Штульмюллера, здесь кроется главный риск:

🧩 Декомпозиция задач: уроки ранних экспериментов 8:31

Компания Ought начала работу над своей миссией еще шесть лет назад, когда современные языковые модели (LLM) даже не существовали в их нынешнем виде. В отсутствие мощных ИИ-систем основатели проводили эксперименты на людях, пытаясь понять, как можно разбить сложные интеллектуальные задачи на мелкие шаги.

Джунгвон Бюн описывает один из ключевых экспериментов — «релейное программирование»:

Основной проблемой, с которой столкнулись исследователи, стала прогрессия ошибок. Если вероятность ошибки в подзадаче составляет всего 10%, то при цепочке из 20 шагов система практически гарантированно придет к неверному результату. Штульмюллер отмечает, что современные языковые модели сталкиваются с тем же барьером «ненадежности» при выполнении длинных последовательностей действий.

🔍 Интерпретируемость по построению (Interpretability by Construction) 17:42

Философия Ought строится на принципе «интерпретируемости по построению». Вместо того чтобы пытаться угадать, почему нейросеть выдала тот или иной ответ, разработчики заставляют модель следовать человекочитаемым процессам.

Ключевые отличия подхода Ought:

🧪 Как работает Elicit: от поиска к проверке на надежность 22:06

Флагманский продукт компании, Elicit (elicit.org), сегодня позиционируется как ИИ-ассистент для исследователей. Его основная задача — превращать неструктурированные данные из PDF-файлов в структурированные таблицы для быстрого анализа.

В систему встроены специализированные инструменты оценки качества работ:

  1. Контрольный список надежности (Trustworthiness checklist): Система автоматически проверяет размер выборки, наличие конфликтов интересов у авторов и контролируемые переменные.
  2. Цитирование источников: Elicit не просто дает ответ, а находит релевантный фрагмент текста и показывает его пользователю. Это сокращает время на верификацию, так как человеку нужно прочитать пару предложений вместо всей статьи.
  3. Список сущностей (List of entities): Новая функция, позволяющая извлекать концепты (например, наборы данных или эффекты лекарств) сразу из множества работ и группировать их.

⚙️ Технический стек и методы обучения 1:25:48

Команда Ought использует ансамбль моделей, постоянно тестируя и меняя их в зависимости от эффективности.

Факты о технической базе проекта: