# Elicit: как превратить хаос научных статей в структурированные данные

Источник: https://www.youtube.com/watch?v=sv1E5LX1JvY
Канал: The Cognitive Revolution
Опубликовано: 03.04.2024

---

Андреас Штульмюллер и Джунгвон Бьюн, основатели сервиса Elicit, представляют новое видение научной работы в эпоху ИИ, где исследователь больше не тонет в бесконечных вкладках браузера. В центре обсуждения — трансформация Elicit из некоммерческой лаборатории в коммерческий стартап, запуск амбициозного инструмента Notebooks и методы декомпозиции задач, которые позволяют языковым моделям достигать «суперчеловеческой» точности в анализе научных данных.

## 🔬 Видение Elicit: от хаоса вкладок к системному мышлению
[[JUMP:05:38]]

Джунгвон Бьюн описывает миссию Elicit как попытку масштабировать высококачественное мышление и помочь ученым справляться с экспоненциально растущим объемом информации [05:50]. Сегодня исследователи сталкиваются с двумя главными проблемами:

*   **Информационный перегруз:** публикаций становится слишком много, и ни один человек не в состоянии отслеживать всё даже в узкой нише [07:08].
*   **Бессистемность процессов:** типичное исследование превращается в «взрыв вкладок» в браузере, где путь от Google Scholar до итогового вывода через восемь часов работы невозможно восстановить или масштабировать [07:35].

В ответ на это Elicit предлагает концепцию «системного, прозрачного и безграничного» (unbounded) исследования [08:38]. По словам Джунгвон Бьюн, ключевая идея — переместить фокус исследователя с чтения отдельных PDF-файлов на метапознание: определение критериев качества и релевантности, которые ИИ затем применит ко всему массиву доступных данных [09:05]. 

Новый инструмент — «Блокноты» (Notebooks) — стал четвертой попыткой команды реализовать это видение [06:29]. Он позволяет сохранять полный лог шагов: какие запросы вводились, какие фильтры применялись и почему те или иные статьи были отсеяны [09:58]. Это решает проблему статичности научных PDF-артефактов, делая процесс анализа воспроизводимым и расширяемым [10:36].

## 🛠 Методология надежности: декомпозиция задач
[[JUMP:17:47]]

Андреас Штульмюллер подчеркивает, что надежность ответов ИИ в Elicit строится на принципе декомпозиции задач (task decomposition). По его мнению, вместо того чтобы скармливать модели огромный контекст и надеяться на правильный суммаризированный ответ, задачу нужно разбивать на максимально мелкие, легко проверяемые этапы [19:50]. 

Основные тезисы Андреаса о декомпозиции:

1.  **Легкость надзора (Supervision):** Чем меньше фрагмент задачи, тем проще человеку или другой модели проверить корректность выполнения. В контексте миллиона токенов легко увидеть хороший ответ, но почти невозможно заметить, что модель что-то упустила [20:18].
2.  **Верификация фактов:** Для борьбы с галлюцинациями Elicit разбивает сгенерированное резюме на независимые утверждения. Затем для каждого утверждения модель отдельно проверяет, подтверждается ли оно контекстом [20:43].
3.  **Модульность как в программировании:** Андреас сравнивает архитектуру ИИ-задач с написанием чистого кода. Использование четких интерфейсов между этапами обработки данных делает систему прозрачной для аудита [21:10].

Джунгвон Бьюн добавляет, что такой подход меняет и пользовательский опыт. Вместо абстрактного вопроса «найди мне релевантные статьи», пользователь задает конкретные критерии, например: «каков был размер выборки?» или «была ли отвергнута нулевая гипотеза?» [12:23]. Это позволяет превратить субъективную оценку релевантности в объективный набор данных [26:50].

## 📊 Технический стек и борьба с галлюцинациями
[[JUMP:27:16]]

Одной из самых сложных задач для команды стало извлечение данных из таблиц внутри научных статей. До появления мультимодальных моделей это было практически невозможно, но сейчас, благодаря сочетанию Vision-моделей и сложного инженерного парсинга, Elicit может отвечать на вопросы о P-значениях или конкретных числовых результатах, скрытых в PDF [36:11].

Текущий подход к моделям в Elicit:

*   **Прагматизм и сменяемость:** Компания не привязывается к одному поставщику. Используются GPT-4 (OpenAI), Claude 3 (Anthropic), Flan-T5 и тонко настроенные версии GPT-3.5 [30:22].
*   **Снижение галлюцинаций:** Использование специализированных методов проверки позволило снизить количество галлюцинаций с 1,5 до 0,5 на среднюю задачу (при строгом определении галлюцинации, включающем даже легкие преувеличения) [27:56].
*   **Цепочка рассуждений (Chain of Thought):** Elicit использует CoT для всех вопросов. При экспорте данных в CSV пользователи могут увидеть отдельную колонку с «рассуждениями» модели, что помогает понять логику извлечения данных [38:24].

Андреас Штульмюллер отмечает критическую ошибку многих разработчиков: просить модель «ответь "да" или "нет", а затем обоснуй». По его мнению, это заставляет модель фиксироваться на потенциально неверном ответе. Правильный интерфейс должен давать модели возможность «отступить», сказать «я не знаю» или указать, что информации нет в тексте [42:22].

## 🚀 Бизнес-путь: от лаборатории к $1 млн ARR
[[JUMP:05:50]]

История Elicit — это классический пример «академического спин-оффа». Изначально проект развивался внутри некоммерческой организации Ought как исследовательская лаборатория. Однако для масштабирования влияния и привлечения ресурсов основатели приняли решение создать коммерческую структуру [1:17:50].

Основные вехи развития:

*   **Финансы:** Компания привлекла $9 млн в рамках посевного (seed) раунда [06:03].
*   **Выручка:** После запуска подписки Elicit достиг годового повторяющегося дохода (ARR) в $1 млн всего за четыре месяца [06:03].
*   **Статус:** Сейчас Elicit является корпорацией общественной выгоды (Public Benefit Corporation, PBC). Это позволяет юридически закрепить приоритет социальной миссии наряду с финансовым успехом [1:19:06].

Джунгвон Бьюн подчеркивает, что переход в коммерческий статус прошел гладко благодаря поддержке филантропических доноров и независимого совета директоров некоммерческой организации, которая получила свою долю в стартапе на рыночных условиях [1:18:28].

## 🔮 Будущее: Exoscale Engine и «безграничные» вычисления
[[JUMP:51:54]]

Основатели Elicit готовят масштабное обновление архитектуры, которое они называют «Exoscale Engine». Сейчас работа в сервисе ограничена сессией в браузере: если закрыть вкладку, процесс прерывается [57:53]. В будущем вычисления будут отвязаны от браузера.

Перспективы развития по версии основателей:

*   **Масштабируемые вычисления:** Пользователь сможет запустить анализ не 10, а 100 000 статей, заплатив условные $100 и подождав несколько часов. Это превращает ИИ в полноценного «автономного ассистента-исследователя» [58:05].
*   **Концептуальный поиск:** Вместо того чтобы выдавать список статей, Elicit будет организовывать знания вокруг концепций. Например, «какие методы обучения учебных программ (curriculum learning) существуют и каковы доказательства эффективности для каждого?» [1:11:31].
*   **Безопасность и этика:** В условиях потенциальных рисков (например, создание биологического оружия) Elicit планирует использовать те же методы декомпозиции для мониторинга вредоносных намерений. Андреас и Джунгвон считают, что модели скоро научатся распознавать «неадекватность» или деструктивные цели пользователя [1:02:58].

В настоящее время команда Elicit состоит из 12 человек и активно ищет опытных инженеров (Python/Typescript), способных строить надежные системы из «ненадежных» компонентов ИИ [1:20:50].