Elicit: как превратить хаос научных статей в структурированные данные

The Cognitive Revolution 2 тыс. 1 ч 23 мин 5 мин 03.04.2024
Главное

Андреас Штульмюллер и Джунгвон Бьюн, основатели сервиса Elicit, представляют новое видение научной работы в эпоху ИИ, где исследователь больше не тонет в бесконечных вкладках браузера. В центре обсуждения — трансформация Elicit из некоммерческой лаборатории в коммерческий стартап, запуск амбициозного инструмента Notebooks и методы декомпозиции задач, которые позволяют языковым моделям достигать «суперчеловеческой» точности в анализе научных данных.

🔬 Видение Elicit: от хаоса вкладок к системному мышлению 5:38

Джунгвон Бьюн описывает миссию Elicit как попытку масштабировать высококачественное мышление и помочь ученым справляться с экспоненциально растущим объемом информации . Сегодня исследователи сталкиваются с двумя главными проблемами:

В ответ на это Elicit предлагает концепцию «системного, прозрачного и безграничного» (unbounded) исследования . По словам Джунгвон Бьюн, ключевая идея — переместить фокус исследователя с чтения отдельных PDF-файлов на метапознание: определение критериев качества и релевантности, которые ИИ затем применит ко всему массиву доступных данных .

Новый инструмент — «Блокноты» (Notebooks) — стал четвертой попыткой команды реализовать это видение . Он позволяет сохранять полный лог шагов: какие запросы вводились, какие фильтры применялись и почему те или иные статьи были отсеяны . Это решает проблему статичности научных PDF-артефактов, делая процесс анализа воспроизводимым и расширяемым .

🛠 Методология надежности: декомпозиция задач 17:47

Андреас Штульмюллер подчеркивает, что надежность ответов ИИ в Elicit строится на принципе декомпозиции задач (task decomposition). По его мнению, вместо того чтобы скармливать модели огромный контекст и надеяться на правильный суммаризированный ответ, задачу нужно разбивать на максимально мелкие, легко проверяемые этапы .

Основные тезисы Андреаса о декомпозиции:

  1. Легкость надзора (Supervision): Чем меньше фрагмент задачи, тем проще человеку или другой модели проверить корректность выполнения. В контексте миллиона токенов легко увидеть хороший ответ, но почти невозможно заметить, что модель что-то упустила .
  2. Верификация фактов: Для борьбы с галлюцинациями Elicit разбивает сгенерированное резюме на независимые утверждения. Затем для каждого утверждения модель отдельно проверяет, подтверждается ли оно контекстом .
  3. Модульность как в программировании: Андреас сравнивает архитектуру ИИ-задач с написанием чистого кода. Использование четких интерфейсов между этапами обработки данных делает систему прозрачной для аудита .

Джунгвон Бьюн добавляет, что такой подход меняет и пользовательский опыт. Вместо абстрактного вопроса «найди мне релевантные статьи», пользователь задает конкретные критерии, например: «каков был размер выборки?» или «была ли отвергнута нулевая гипотеза?» . Это позволяет превратить субъективную оценку релевантности в объективный набор данных .

📊 Технический стек и борьба с галлюцинациями 27:16

Одной из самых сложных задач для команды стало извлечение данных из таблиц внутри научных статей. До появления мультимодальных моделей это было практически невозможно, но сейчас, благодаря сочетанию Vision-моделей и сложного инженерного парсинга, Elicit может отвечать на вопросы о P-значениях или конкретных числовых результатах, скрытых в PDF .

Текущий подход к моделям в Elicit:

Андреас Штульмюллер отмечает критическую ошибку многих разработчиков: просить модель «ответь "да" или "нет", а затем обоснуй». По его мнению, это заставляет модель фиксироваться на потенциально неверном ответе. Правильный интерфейс должен давать модели возможность «отступить», сказать «я не знаю» или указать, что информации нет в тексте .

🚀 Бизнес-путь: от лаборатории к $1 млн ARR 5:50

История Elicit — это классический пример «академического спин-оффа». Изначально проект развивался внутри некоммерческой организации Ought как исследовательская лаборатория. Однако для масштабирования влияния и привлечения ресурсов основатели приняли решение создать коммерческую структуру .

Основные вехи развития:

Джунгвон Бьюн подчеркивает, что переход в коммерческий статус прошел гладко благодаря поддержке филантропических доноров и независимого совета директоров некоммерческой организации, которая получила свою долю в стартапе на рыночных условиях .

🔮 Будущее: Exoscale Engine и «безграничные» вычисления 51:54

Основатели Elicit готовят масштабное обновление архитектуры, которое они называют «Exoscale Engine». Сейчас работа в сервисе ограничена сессией в браузере: если закрыть вкладку, процесс прерывается . В будущем вычисления будут отвязаны от браузера.

Перспективы развития по версии основателей:

В настоящее время команда Elicit состоит из 12 человек и активно ищет опытных инженеров (Python/Typescript), способных строить надежные системы из «ненадежных» компонентов ИИ .

💬 Цитаты

«Люди совершают очевидную ошибку, говоря модели: «Ответь 'да' или 'нет', а затем обоснуй». Это ужасно, потому что она запирает себя в потенциально неверном направлении.»

Андреас Штульмюллер 42:22

«Мы хотим сделать исследования системными, прозрачными и безграничными.»

Джунгвон Бьюн 08:38
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Декомпозиция задач
Процесс разбиения сложной проблемы на мелкие подзадачи, которые ИИ может выполнить с более высокой надежностью.
Галлюцинации
Ошибочные или вымышленные утверждения, генерируемые языковой моделью.
Chain of Thought (CoT)
Метод побуждения модели к пошаговому рассуждению перед выдачей финального ответа.
📊 Цифры
🗓 Хронология
  1. 2023 Запуск платных подписок Elicit и достижение $1 млн ARR.
  2. 2024 Запуск инструмента Notebooks и масштабирование коммерческой структуры.
⚖️ Другая сторона
Стартапы и бизнес Elicit Андреас Штульмюллер Джунгвон Бьюн научные исследования Языковые модели