Чэнлэй Си: «9 из 10 лучших научных идей в нашем тесте сгенерировал ИИ»

В области искусственного интеллекта автоматизация научных исследований считается «святым граалем». Если ИИ сможет самостоятельно генерировать, проверять и внедрять новые идеи, это откроет путь к рекурсивному самосовершенствованию и потенциальному взрыву интеллекта. В новом эпизоде подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с Чэнлэем Си (Chenglei Si), докторантом Стэнфордского университета, его прорывное исследование о способности больших языковых моделей (LLM) создавать инновационные научные концепции.

🧬 Автоматизация науки: от помощника до полноценного исследователя 5:43

Чэнлэй Си начал заниматься исследованиями в области обработки естественного языка (NLP) ещё во время бакалавриата, а перейдя в Стэнфорд, решил сфокусироваться на амбициозной цели — полной автоматизации научного процесса . По мнению Чэнлэя Си, современные модели достигли уровня, когда они могут не просто помогать в написании кода или поиске литературы, но и предлагать гипотезы, которые ранее считались прерогативой человеческого интеллекта .

Этот интерес подогревается дискуссиями о «ситуационной осведомленности» (situational awareness) и прогнозами о достижении уровня «автоматизированного Алека Рэдфорда» (ведущего автора работ по GPT в OpenAI) к 2028 году . Чэнлэй Си отмечает, что хотя полная автоматизация учёного такого калибра — задача экстремальной сложности, его исследование ставит более приземлённую, но важную цель: сравнить возможности ИИ с уровнем среднестатистического аспиранта (PhD student) ведущих вузов .

В контексте предыдущих работ собеседники выделяют несколько ключевых вех:

Проект Co-Scientist (Гейб Гомес, CMU): система, способная по запросу на естественном языке синтезировать аспирин, переводя инструкции в протоколы для автоматизированных лабораторий .
AI Scientist (Sakana AI): попытка создать агента, который генерирует идеи и пишет статьи, используя API Semantic Scholar для проверки новизны .
Проект Eureka (NVIDIA, Джим Фан): использование GPT-4 для написания функций вознаграждения в обучении роботов, где ИИ превзошёл экспертов-людей .

🧪 Методология: ИИ против 100 докторантов 25:54

Для получения объективного ответа на вопрос о креативности ИИ, Чэнлэй Си и его коллеги организовали масштабное исследование, на которое ушло около года . В эксперименте участвовали более 100 исследователей в области NLP, преимущественно докторантов .

Механика исследования включала три ветки генерации идей:

Человеческие идеи: участники получали $300 за участие и боролись за призы в $1000 за лучшие предложения .
Идеи ИИ (Claude 3.5 Sonnet): модель генерировала тысячи идей, которые затем ранжировались самой системой .
Идеи ИИ + переранжирование человеком: Чэнлэй Си лично просматривал сгенерированные ИИ варианты, чтобы отобрать лучшие, так как автоматическое ранжирование всё ещё несовершенно .

Чтобы избежать предвзятости рецензентов, все идеи проходили через «агента по стилю» . Этот агент приводил тексты к единому академическому формату, исправляя грамматические ошибки людей и сглаживая специфические «маркеры» ИИ-текста, такие как частое использование слова "delve" .

Конвейер генерации ИИ

Процесс создания идей моделью Claude 3.5 Sonnet был многоступенчатым :

Поиск контекста: модель получала релевантные научные статьи по теме.
Обучение на примерах: в промпт включались 6 вручную отобранных качественных работ.
Борьба с повторами: система генерировала идеи пачками, причём названия предыдущих идей добавлялись в контекст, чтобы модель не дублировала саму себя .

Чэнлэй Си отмечает поразительный уровень избыточности: из 4000 сгенерированных ИИ идей только около 200 оказались уникальными и содержательными . Стоимость получения одной качественной идеи составила около нескольких долларов в токенах API .

📊 Результаты: превосходство в новизне и азарте 56:38

Оценка идей проводилась экспертами вслепую по пяти критериям: новизна, «увлекательность» (excitement), осуществимость (feasibility), эффективность и общая оценка . Результаты оказались неожиданными для многих скептиков.

Ключевые цифры исследования:

Идеи ИИ получили статистически значимо более высокие баллы по критериям «новизна» и «увлекательность» .
По критериям «осуществимость» и «эффективность» ИИ оказался на одном уровне с людьми, лишь незначительно уступая в реальности реализации .
В топ-10 лучших идей всего эксперимента 9 принадлежали ИИ и только 1 — человеку .
Максимальный балл за новизну у людей составил 8 из 10, тогда как ИИ получил оценку 10 .

Чэнлэй Си характеризует идеи ИИ как более «нестандартные» (out-of-the-box). В то время как люди склонны предлагать инкрементальные улучшения существующих методов, ИИ чаще выдаёт концепции, менее привязанные к текущей литературе, что эксперты воспринимают как более высокую новизну .

Одним из примеров «умной» идеи от Claude 3.5 Sonnet стал метод калибровки неопределённости моделей. Вместо простого голосования большинством ИИ предложил строить граф отношений между ответами и использовать метрики центральности графа для оценки достоверности .

⚖️ Проблема оценки и «галлюцинации одобрения» 1:01:50

Несмотря на триумфальные цифры, авторы признают наличие серьёзных методологических вызовов. Оценка научных идей — крайне субъективный процесс. Исследование показало, что корреляция между рецензентами-людьми составляет около 66-71%, в то время как ИИ-рецензенты соглашаются с людьми лишь в 56% случаев .

Существует риск «сикофантства» или подстройки под ожидания: модели могут использовать слова-маркеры, которые звучат инновационно, фактически не предлагая ничего ценного . Однако Чэнлэй Си парирует это тем, что использование единого стиля для всех участников должно было минимизировать этот эффект .

Ещё один важный нюанс — уровень человеческой базы. Чэнлэй Си признаёт, что идеи докторантов, предложенные «на ходу» за вознаграждение, могут не отражать пик человеческой гениальности. В будущем он планирует сравнить генерации ИИ со статьями, уже принятыми на топовые конференции, такие как ACL или NeurIPS .

🚀 Будущее: агенты-исполнители и модель o1 1:18:43

Следующим шагом Чэнлэй Си называет переход от генерации идей к их автоматическому исполнению. Сейчас его команда запускает проект по реализации предложенных идей в реальный код и эксперименты .

Проблемы текущих агентов-исполнителей:

Неправильный выбор базовых линий: ИИ может сравнивать свой метод с заведомо слабым алгоритмом (например, методом на основе ключевых слов вместо нейросети) .
Пропуск этапов: агенты склонны упрощать реализацию, что искажает результаты .

Натан Лабенц предполагает, что новая серия моделей OpenAI o1 с улучшенным рассуждением (reasoning) может радикально изменить ситуацию как в генерации, так и в оценке идей . По мнению ведущего, способность o1 критиковать собственные подходы и предлагать лучшие альтернативы в кодинге уже сейчас впечатляет .

Чэнлэй Си даёт амбициозный прогноз: достижение «момента эврики» — когда система полностью автономно создаст проект, который получит награду "Best Paper" на крупной конференции — может занять от 3 до 4 лет . По его словам, средний уровень публикаций ИИ может достичь уже в ближайшее время .