Революция в области ИИ-рассуждений (AI reasoning) обещает изменить то, как мы работаем с информацией и принимаем сложные решения. Основатели компании Ought Джунгвон Бюн и Андреас Штульмюллер разрабатывают механизмы делегирования открытых когнитивных задач машинам, делая ставку не на финальный результат, а на прозрачность самого процесса мышления. В центре их экосистемы — продукт Elicit, который уже сегодня помогает тысячам исследователей автоматизировать обзор научной литературы и анализ данных.
🧠 Проблема «прокси-целей» и ловушка имитации 4:50
Андреас Штульмюллер утверждает, что до сих пор машинное обучение (ML) было эффективно в двух сферах: имитация человеческого поведения (генерация текста) и оптимизация вознаграждения в четко заданных рамках (игры вроде го). Однако в задачах, требующих глубоких раздумий и принятия обоснованных решений, «правильного» объективного вознаграждения не существует.
По мнению Штульмюллера, здесь кроется главный риск:
- Использование суррогатных целей: ИИ может начать оптимизировать «убедительность» или «впечатляющий вид» ответа вместо его истинности или полезности.
- Отсутствие критического мышления: Текущие модели в основном находятся в режиме имитации, они не способны превзойти человека в качестве принятия решений без новых архитектурных подходов.
🧩 Декомпозиция задач: уроки ранних экспериментов 8:31
Компания Ought начала работу над своей миссией еще шесть лет назад, когда современные языковые модели (LLM) даже не существовали в их нынешнем виде. В отсутствие мощных ИИ-систем основатели проводили эксперименты на людях, пытаясь понять, как можно разбить сложные интеллектуальные задачи на мелкие шаги.
Джунгвон Бюн описывает один из ключевых экспериментов — «релейное программирование»:
- Участнику давали всего одну минуту на продвижение в решении задачи, после чего он передавал свои записи следующему человеку.
- Целью было проверить, насколько «композируемым» является мышление и можно ли решать сложные проблемы, не удерживая весь контекст в голове.
Основной проблемой, с которой столкнулись исследователи, стала прогрессия ошибок. Если вероятность ошибки в подзадаче составляет всего 10%, то при цепочке из 20 шагов система практически гарантированно придет к неверному результату. Штульмюллер отмечает, что современные языковые модели сталкиваются с тем же барьером «ненадежности» при выполнении длинных последовательностей действий.
🔍 Интерпретируемость по построению (Interpretability by Construction) 17:42
Философия Ought строится на принципе «интерпретируемости по построению». Вместо того чтобы пытаться угадать, почему нейросеть выдала тот или иной ответ, разработчики заставляют модель следовать человекочитаемым процессам.
Ключевые отличия подхода Ought:
- Надзор за процессом, а не за результатом: Обучение моделей на высококачественных рассуждениях, а не просто на правильных ответах.
- Транспарентность: Все промежуточные состояния системы должны быть эксплицитными (явными). Это позволяет человеку проверять логику ИИ на каждом этапе.
- Автоматизированная декомпозиция: Штульмюллер считает, что сам процесс разбиения сложных задач на простые тоже может быть делегирован ИИ, что позволит масштабировать систему без ручного труда.
🧪 Как работает Elicit: от поиска к проверке на надежность 22:06
Флагманский продукт компании, Elicit (elicit.org), сегодня позиционируется как ИИ-ассистент для исследователей. Его основная задача — превращать неструктурированные данные из PDF-файлов в структурированные таблицы для быстрого анализа.
В систему встроены специализированные инструменты оценки качества работ:
- Контрольный список надежности (Trustworthiness checklist): Система автоматически проверяет размер выборки, наличие конфликтов интересов у авторов и контролируемые переменные.
- Цитирование источников: Elicit не просто дает ответ, а находит релевантный фрагмент текста и показывает его пользователю. Это сокращает время на верификацию, так как человеку нужно прочитать пару предложений вместо всей статьи.
- Список сущностей (List of entities): Новая функция, позволяющая извлекать концепты (например, наборы данных или эффекты лекарств) сразу из множества работ и группировать их.
⚙️ Технический стек и методы обучения 1:25:48
Команда Ought использует ансамбль моделей, постоянно тестируя и меняя их в зависимости от эффективности.
Факты о технической базе проекта:
- Используемые модели: Команда работала с API OpenAI, Anthropic, Cohere, а также с открытыми моделями вроде Galactica, GPT-J и Flan-T5.
- Основная рабочая лошадка: На текущий момент наиболее полезной для развертывания признана модель Flan-T5 XXL (11 миллиардов параметров).
- Экономика: Переход на собственные модели обусловлен стоимостью. При базе в 250 000 пользователей использование только проприетарных API становится слишком дорогим [1:26