Elicit: как превратить хаос научных статей в структурированные данные

Андреас Штульмюллер и Джунгвон Бьюн, основатели сервиса Elicit, представляют новое видение научной работы в эпоху ИИ, где исследователь больше не тонет в бесконечных вкладках браузера. В центре обсуждения — трансформация Elicit из некоммерческой лаборатории в коммерческий стартап, запуск амбициозного инструмента Notebooks и методы декомпозиции задач, которые позволяют языковым моделям достигать «суперчеловеческой» точности в анализе научных данных.

🔬 Видение Elicit: от хаоса вкладок к системному мышлению 5:38

Джунгвон Бьюн описывает миссию Elicit как попытку масштабировать высококачественное мышление и помочь ученым справляться с экспоненциально растущим объемом информации . Сегодня исследователи сталкиваются с двумя главными проблемами:

Информационный перегруз: публикаций становится слишком много, и ни один человек не в состоянии отслеживать всё даже в узкой нише .
Бессистемность процессов: типичное исследование превращается в «взрыв вкладок» в браузере, где путь от Google Scholar до итогового вывода через восемь часов работы невозможно восстановить или масштабировать .

В ответ на это Elicit предлагает концепцию «системного, прозрачного и безграничного» (unbounded) исследования . По словам Джунгвон Бьюн, ключевая идея — переместить фокус исследователя с чтения отдельных PDF-файлов на метапознание: определение критериев качества и релевантности, которые ИИ затем применит ко всему массиву доступных данных .

Новый инструмент — «Блокноты» (Notebooks) — стал четвертой попыткой команды реализовать это видение . Он позволяет сохранять полный лог шагов: какие запросы вводились, какие фильтры применялись и почему те или иные статьи были отсеяны . Это решает проблему статичности научных PDF-артефактов, делая процесс анализа воспроизводимым и расширяемым .

🛠 Методология надежности: декомпозиция задач 17:47

Андреас Штульмюллер подчеркивает, что надежность ответов ИИ в Elicit строится на принципе декомпозиции задач (task decomposition). По его мнению, вместо того чтобы скармливать модели огромный контекст и надеяться на правильный суммаризированный ответ, задачу нужно разбивать на максимально мелкие, легко проверяемые этапы .

Основные тезисы Андреаса о декомпозиции:

Легкость надзора (Supervision): Чем меньше фрагмент задачи, тем проще человеку или другой модели проверить корректность выполнения. В контексте миллиона токенов легко увидеть хороший ответ, но почти невозможно заметить, что модель что-то упустила .
Верификация фактов: Для борьбы с галлюцинациями Elicit разбивает сгенерированное резюме на независимые утверждения. Затем для каждого утверждения модель отдельно проверяет, подтверждается ли оно контекстом .
Модульность как в программировании: Андреас сравнивает архитектуру ИИ-задач с написанием чистого кода. Использование четких интерфейсов между этапами обработки данных делает систему прозрачной для аудита .

Джунгвон Бьюн добавляет, что такой подход меняет и пользовательский опыт. Вместо абстрактного вопроса «найди мне релевантные статьи», пользователь задает конкретные критерии, например: «каков был размер выборки?» или «была ли отвергнута нулевая гипотеза?» . Это позволяет превратить субъективную оценку релевантности в объективный набор данных .

📊 Технический стек и борьба с галлюцинациями 27:16

Одной из самых сложных задач для команды стало извлечение данных из таблиц внутри научных статей. До появления мультимодальных моделей это было практически невозможно, но сейчас, благодаря сочетанию Vision-моделей и сложного инженерного парсинга, Elicit может отвечать на вопросы о P-значениях или конкретных числовых результатах, скрытых в PDF .

Текущий подход к моделям в Elicit:

Прагматизм и сменяемость: Компания не привязывается к одному поставщику. Используются GPT-4 (OpenAI), Claude 3 (Anthropic), Flan-T5 и тонко настроенные версии GPT-3.5 .
Снижение галлюцинаций: Использование специализированных методов проверки позволило снизить количество галлюцинаций с 1,5 до 0,5 на среднюю задачу (при строгом определении галлюцинации, включающем даже легкие преувеличения) .
Цепочка рассуждений (Chain of Thought): Elicit использует CoT для всех вопросов. При экспорте данных в CSV пользователи могут увидеть отдельную колонку с «рассуждениями» модели, что помогает понять логику извлечения данных .

Андреас Штульмюллер отмечает критическую ошибку многих разработчиков: просить модель «ответь "да" или "нет", а затем обоснуй». По его мнению, это заставляет модель фиксироваться на потенциально неверном ответе. Правильный интерфейс должен давать модели возможность «отступить», сказать «я не знаю» или указать, что информации нет в тексте .

🚀 Бизнес-путь: от лаборатории к $1 млн ARR 5:50

История Elicit — это классический пример «академического спин-оффа». Изначально проект развивался внутри некоммерческой организации Ought как исследовательская лаборатория. Однако для масштабирования влияния и привлечения ресурсов основатели приняли решение создать коммерческую структуру .

Основные вехи развития:

Финансы: Компания привлекла $9 млн в рамках посевного (seed) раунда .
Выручка: После запуска подписки Elicit достиг годового повторяющегося дохода (ARR) в $1 млн всего за четыре месяца .
Статус: Сейчас Elicit является корпорацией общественной выгоды (Public Benefit Corporation, PBC). Это позволяет юридически закрепить приоритет социальной миссии наряду с финансовым успехом .

Джунгвон Бьюн подчеркивает, что переход в коммерческий статус прошел гладко благодаря поддержке филантропических доноров и независимого совета директоров некоммерческой организации, которая получила свою долю в стартапе на рыночных условиях .

🔮 Будущее: Exoscale Engine и «безграничные» вычисления 51:54

Основатели Elicit готовят масштабное обновление архитектуры, которое они называют «Exoscale Engine». Сейчас работа в сервисе ограничена сессией в браузере: если закрыть вкладку, процесс прерывается . В будущем вычисления будут отвязаны от браузера.

Перспективы развития по версии основателей:

Масштабируемые вычисления: Пользователь сможет запустить анализ не 10, а 100 000 статей, заплатив условные $100 и подождав несколько часов. Это превращает ИИ в полноценного «автономного ассистента-исследователя» .
Концептуальный поиск: Вместо того чтобы выдавать список статей, Elicit будет организовывать знания вокруг концепций. Например, «какие методы обучения учебных программ (curriculum learning) существуют и каковы доказательства эффективности для каждого?» .
Безопасность и этика: В условиях потенциальных рисков (например, создание биологического оружия) Elicit планирует использовать те же методы декомпозиции для мониторинга вредоносных намерений. Андреас и Джунгвон считают, что модели скоро научатся распознавать «неадекватность» или деструктивные цели пользователя .

В настоящее время команда Elicit состоит из 12 человек и активно ищет опытных инженеров (Python/Typescript), способных строить надежные системы из «ненадежных» компонентов ИИ .