# Чэнлэй Си: «9 из 10 лучших научных идей в нашем тесте сгенерировал ИИ»

Источник: https://www.youtube.com/watch?v=IOCi6q3KvX4
Канал: The Cognitive Revolution
Опубликовано: 23.10.2024

---

В области искусственного интеллекта автоматизация научных исследований считается «святым граалем». Если ИИ сможет самостоятельно генерировать, проверять и внедрять новые идеи, это откроет путь к рекурсивному самосовершенствованию и потенциальному взрыву интеллекта. В новом эпизоде подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с Чэнлэем Си (Chenglei Si), докторантом Стэнфордского университета, его прорывное исследование о способности больших языковых моделей (LLM) создавать инновационные научные концепции.

## 🧬 Автоматизация науки: от помощника до полноценного исследователя
[[JUMP:05:43]]

Чэнлэй Си начал заниматься исследованиями в области обработки естественного языка (NLP) ещё во время бакалавриата, а перейдя в Стэнфорд, решил сфокусироваться на амбициозной цели — полной автоматизации научного процесса [06:42]. По мнению Чэнлэя Си, современные модели достигли уровня, когда они могут не просто помогать в написании кода или поиске литературы, но и предлагать гипотезы, которые ранее считались прерогативой человеческого интеллекта [07:12].

Этот интерес подогревается дискуссиями о «ситуационной осведомленности» (situational awareness) и прогнозами о достижении уровня «автоматизированного Алека Рэдфорда» (ведущего автора работ по GPT в OpenAI) к 2028 году [11:16]. Чэнлэй Си отмечает, что хотя полная автоматизация учёного такого калибра — задача экстремальной сложности, его исследование ставит более приземлённую, но важную цель: сравнить возможности ИИ с уровнем среднестатистического аспиранта (PhD student) ведущих вузов [11:47].

В контексте предыдущих работ собеседники выделяют несколько ключевых вех:

*   **Проект Co-Scientist (Гейб Гомес, CMU):** система, способная по запросу на естественном языке синтезировать аспирин, переводя инструкции в протоколы для автоматизированных лабораторий [13:07].
*   **AI Scientist (Sakana AI):** попытка создать агента, который генерирует идеи и пишет статьи, используя API Semantic Scholar для проверки новизны [14:52].
*   **Проект Eureka (NVIDIA, Джим Фан):** использование GPT-4 для написания функций вознаграждения в обучении роботов, где ИИ превзошёл экспертов-людей [17:41].

## 🧪 Методология: ИИ против 100 докторантов
[[JUMP:25:54]]

Для получения объективного ответа на вопрос о креативности ИИ, Чэнлэй Си и его коллеги организовали масштабное исследование, на которое ушло около года [07:40]. В эксперименте участвовали более 100 исследователей в области NLP, преимущественно докторантов [28:54].

Механика исследования включала три ветки генерации идей:

1.  **Человеческие идеи:** участники получали $300 за участие и боролись за призы в $1000 за лучшие предложения [53:57].
2.  **Идеи ИИ (Claude 3.5 Sonnet):** модель генерировала тысячи идей, которые затем ранжировались самой системой [27:14].
3.  **Идеи ИИ + переранжирование человеком:** Чэнлэй Си лично просматривал сгенерированные ИИ варианты, чтобы отобрать лучшие, так как автоматическое ранжирование всё ещё несовершенно [28:10].

Чтобы избежать предвзятости рецензентов, все идеи проходили через «агента по стилю» [49:08]. Этот агент приводил тексты к единому академическому формату, исправляя грамматические ошибки людей и сглаживая специфические «маркеры» ИИ-текста, такие как частое использование слова "delve" [50:32].

### Конвейер генерации ИИ
Процесс создания идей моделью Claude 3.5 Sonnet был многоступенчатым [32:51]:

*   **Поиск контекста:** модель получала релевантные научные статьи по теме.
*   **Обучение на примерах:** в промпт включались 6 вручную отобранных качественных работ.
*   **Борьба с повторами:** система генерировала идеи пачками, причём названия предыдущих идей добавлялись в контекст, чтобы модель не дублировала саму себя [31:28].

Чэнлэй Си отмечает поразительный уровень избыточности: из 4000 сгенерированных ИИ идей только около 200 оказались уникальными и содержательными [34:07]. Стоимость получения одной качественной идеи составила около нескольких долларов в токенах API [56:23].

## 📊 Результаты: превосходство в новизне и азарте
[[JUMP:56:38]]

Оценка идей проводилась экспертами вслепую по пяти критериям: новизна, «увлекательность» (excitement), осуществимость (feasibility), эффективность и общая оценка [52:16]. Результаты оказались неожиданными для многих скептиков.

Ключевые цифры исследования:

*   Идеи ИИ получили **статистически значимо более высокие баллы** по критериям «новизна» и «увлекательность» [56:53].
*   По критериям «осуществимость» и «эффективность» ИИ оказался на одном уровне с людьми, лишь незначительно уступая в реальности реализации [57:08].
*   В топ-10 лучших идей всего эксперимента **9 принадлежали ИИ** и только 1 — человеку [1:01:11].
*   Максимальный балл за новизну у людей составил 8 из 10, тогда как ИИ получил оценку 10 [1:12:10].

Чэнлэй Си характеризует идеи ИИ как более «нестандартные» (out-of-the-box). В то время как люди склонны предлагать инкрементальные улучшения существующих методов, ИИ чаще выдаёт концепции, менее привязанные к текущей литературе, что эксперты воспринимают как более высокую новизну [58:35].

Одним из примеров «умной» идеи от Claude 3.5 Sonnet стал метод калибровки неопределённости моделей. Вместо простого голосования большинством ИИ предложил строить граф отношений между ответами и использовать метрики центральности графа для оценки достоверности [1:13:05].

## ⚖️ Проблема оценки и «галлюцинации одобрения»
[[JUMP:1:01:50]]

Несмотря на триумфальные цифры, авторы признают наличие серьёзных методологических вызовов. Оценка научных идей — крайне субъективный процесс. Исследование показало, что корреляция между рецензентами-людьми составляет около 66-71%, в то время как ИИ-рецензенты соглашаются с людьми лишь в 56% случаев [25:10].

Существует риск «сикофантства» или подстройки под ожидания: модели могут использовать слова-маркеры, которые звучат инновационно, фактически не предлагая ничего ценного [1:10:02]. Однако Чэнлэй Си парирует это тем, что использование единого стиля для всех участников должно было минимизировать этот эффект [1:11:40].

Ещё один важный нюанс — уровень человеческой базы. Чэнлэй Си признаёт, что идеи докторантов, предложенные «на ходу» за вознаграждение, могут не отражать пик человеческой гениальности. В будущем он планирует сравнить генерации ИИ со статьями, уже принятыми на топовые конференции, такие как ACL или NeurIPS [1:16:09].

## 🚀 Будущее: агенты-исполнители и модель o1
[[JUMP:1:18:43]]

Следующим шагом Чэнлэй Си называет переход от генерации идей к их автоматическому исполнению. Сейчас его команда запускает проект по реализации предложенных идей в реальный код и эксперименты [1:12:28].

Проблемы текущих агентов-исполнителей:

*   **Неправильный выбор базовых линий:** ИИ может сравнивать свой метод с заведомо слабым алгоритмом (например, методом на основе ключевых слов вместо нейросети) [1:17:18].
*   **Пропуск этапов:** агенты склонны упрощать реализацию, что искажает результаты [1:17:48].

Натан Лабенц предполагает, что новая серия моделей **OpenAI o1** с улучшенным рассуждением (reasoning) может радикально изменить ситуацию как в генерации, так и в оценке идей [1:19:23]. По мнению ведущего, способность o1 критиковать собственные подходы и предлагать лучшие альтернативы в кодинге уже сейчас впечатляет [04:36].

Чэнлэй Си даёт амбициозный прогноз: достижение «момента эврики» — когда система полностью автономно создаст проект, который получит награду "Best Paper" на крупной конференции — может занять от 3 до 4 лет [1:21:16]. По его словам, средний уровень публикаций ИИ может достичь уже в ближайшее время [1:21:30].