Андреас Штульмюллер и Джунгвон Бьюн, основатели сервиса Elicit, представляют новое видение научной работы в эпоху ИИ, где исследователь больше не тонет в бесконечных вкладках браузера. В центре обсуждения — трансформация Elicit из некоммерческой лаборатории в коммерческий стартап, запуск амбициозного инструмента Notebooks и методы декомпозиции задач, которые позволяют языковым моделям достигать «суперчеловеческой» точности в анализе научных данных.
🔬 Видение Elicit: от хаоса вкладок к системному мышлению 5:38
Джунгвон Бьюн описывает миссию Elicit как попытку масштабировать высококачественное мышление и помочь ученым справляться с экспоненциально растущим объемом информации . Сегодня исследователи сталкиваются с двумя главными проблемами:
- Информационный перегруз: публикаций становится слишком много, и ни один человек не в состоянии отслеживать всё даже в узкой нише .
- Бессистемность процессов: типичное исследование превращается в «взрыв вкладок» в браузере, где путь от Google Scholar до итогового вывода через восемь часов работы невозможно восстановить или масштабировать .
В ответ на это Elicit предлагает концепцию «системного, прозрачного и безграничного» (unbounded) исследования . По словам Джунгвон Бьюн, ключевая идея — переместить фокус исследователя с чтения отдельных PDF-файлов на метапознание: определение критериев качества и релевантности, которые ИИ затем применит ко всему массиву доступных данных .
Новый инструмент — «Блокноты» (Notebooks) — стал четвертой попыткой команды реализовать это видение . Он позволяет сохранять полный лог шагов: какие запросы вводились, какие фильтры применялись и почему те или иные статьи были отсеяны . Это решает проблему статичности научных PDF-артефактов, делая процесс анализа воспроизводимым и расширяемым .
🛠 Методология надежности: декомпозиция задач 17:47
Андреас Штульмюллер подчеркивает, что надежность ответов ИИ в Elicit строится на принципе декомпозиции задач (task decomposition). По его мнению, вместо того чтобы скармливать модели огромный контекст и надеяться на правильный суммаризированный ответ, задачу нужно разбивать на максимально мелкие, легко проверяемые этапы .
Основные тезисы Андреаса о декомпозиции:
- Легкость надзора (Supervision): Чем меньше фрагмент задачи, тем проще человеку или другой модели проверить корректность выполнения. В контексте миллиона токенов легко увидеть хороший ответ, но почти невозможно заметить, что модель что-то упустила .
- Верификация фактов: Для борьбы с галлюцинациями Elicit разбивает сгенерированное резюме на независимые утверждения. Затем для каждого утверждения модель отдельно проверяет, подтверждается ли оно контекстом .
- Модульность как в программировании: Андреас сравнивает архитектуру ИИ-задач с написанием чистого кода. Использование четких интерфейсов между этапами обработки данных делает систему прозрачной для аудита .
Джунгвон Бьюн добавляет, что такой подход меняет и пользовательский опыт. Вместо абстрактного вопроса «найди мне релевантные статьи», пользователь задает конкретные критерии, например: «каков был размер выборки?» или «была ли отвергнута нулевая гипотеза?» . Это позволяет превратить субъективную оценку релевантности в объективный набор данных .
📊 Технический стек и борьба с галлюцинациями 27:16
Одной из самых сложных задач для команды стало извлечение данных из таблиц внутри научных статей. До появления мультимодальных моделей это было практически невозможно, но сейчас, благодаря сочетанию Vision-моделей и сложного инженерного парсинга, Elicit может отвечать на вопросы о P-значениях или конкретных числовых результатах, скрытых в PDF .
Текущий подход к моделям в Elicit:
- Прагматизм и сменяемость: Компания не привязывается к одному поставщику. Используются GPT-4 (OpenAI), Claude 3 (Anthropic), Flan-T5 и тонко настроенные версии GPT-3.5 .
- Снижение галлюцинаций: Использование специализированных методов проверки позволило снизить количество галлюцинаций с 1,5 до 0,5 на среднюю задачу (при строгом определении галлюцинации, включающем даже легкие преувеличения) .
- Цепочка рассуждений (Chain of Thought): Elicit использует CoT для всех вопросов. При экспорте данных в CSV пользователи могут увидеть отдельную колонку с «рассуждениями» модели, что помогает понять логику извлечения данных .
Андреас Штульмюллер отмечает критическую ошибку многих разработчиков: просить модель «ответь "да" или "нет", а затем обоснуй». По его мнению, это заставляет модель фиксироваться на потенциально неверном ответе. Правильный интерфейс должен давать модели возможность «отступить», сказать «я не знаю» или указать, что информации нет в тексте .
🚀 Бизнес-путь: от лаборатории к $1 млн ARR 5:50
История Elicit — это классический пример «академического спин-оффа». Изначально проект развивался внутри некоммерческой организации Ought как исследовательская лаборатория. Однако для масштабирования влияния и привлечения ресурсов основатели приняли решение создать коммерческую структуру .
Основные вехи развития:
- Финансы: Компания привлекла $9 млн в рамках посевного (seed) раунда .
- Выручка: После запуска подписки Elicit достиг годового повторяющегося дохода (ARR) в $1 млн всего за четыре месяца .
- Статус: Сейчас Elicit является корпорацией общественной выгоды (Public Benefit Corporation, PBC). Это позволяет юридически закрепить приоритет социальной миссии наряду с финансовым успехом .
Джунгвон Бьюн подчеркивает, что переход в коммерческий статус прошел гладко благодаря поддержке филантропических доноров и независимого совета директоров некоммерческой организации, которая получила свою долю в стартапе на рыночных условиях .
🔮 Будущее: Exoscale Engine и «безграничные» вычисления 51:54
Основатели Elicit готовят масштабное обновление архитектуры, которое они называют «Exoscale Engine». Сейчас работа в сервисе ограничена сессией в браузере: если закрыть вкладку, процесс прерывается . В будущем вычисления будут отвязаны от браузера.
Перспективы развития по версии основателей:
- Масштабируемые вычисления: Пользователь сможет запустить анализ не 10, а 100 000 статей, заплатив условные $100 и подождав несколько часов. Это превращает ИИ в полноценного «автономного ассистента-исследователя» .
- Концептуальный поиск: Вместо того чтобы выдавать список статей, Elicit будет организовывать знания вокруг концепций. Например, «какие методы обучения учебных программ (curriculum learning) существуют и каковы доказательства эффективности для каждого?» .
- Безопасность и этика: В условиях потенциальных рисков (например, создание биологического оружия) Elicit планирует использовать те же методы декомпозиции для мониторинга вредоносных намерений. Андреас и Джунгвон считают, что модели скоро научатся распознавать «неадекватность» или деструктивные цели пользователя .
В настоящее время команда Elicit состоит из 12 человек и активно ищет опытных инженеров (Python/Typescript), способных строить надежные системы из «ненадежных» компонентов ИИ .