ИИ-новости: новые горизонты Wikipedia, математика Google и эксперименты GPT-3

ИИ-новости: Wikipedia под защитой, математические прорывы Google и литературные амбиции GPT-3 🤖 0:00

В этом выпуске ведущий канала ML News Янник Килчер анализирует главные события недели в мире машинного обучения. В центре внимания — новые инструменты для проверки фактов на Wikipedia, способность языковых моделей решать сложные математические задачи и этические вопросы, возникающие при написании научных статей искусственным интеллектом.

🌐 Meta AI Sphere: защита достоверности Wikipedia 0:28

Meta AI представила систему Sphere, призванную решить проблему неверных или отсутствующих ссылок в статьях Wikipedia. По словам Килчера, Wikipedia ежедневно сталкивается с огромным потоком правок (около 17 000 новых статей в месяц), что делает ручную проверку каждого источника невозможной.

Проблема: Часто статьи содержат корректные утверждения, но ссылки на источники ведут на страницы, не имеющие отношения к теме (пример с боксером Джо Хитом).
Решение Sphere: Система использует корпус из более чем 100 миллионов веб-страниц для поиска и верификации цитат.
Механика работы: 1. Используется генеративное расширение запроса, чтобы найти больше кандидатов на роль источника.
1. Применяются методы поиска (dense и sparse индексы) для нахождения релевантного контента.
2. Система ранжирует найденные источники по их способности подтвердить конкретное утверждение.

Кильчер отмечает, что Meta сделала Sphere открытым проектом (open source), предоставив доступ к коду и индексам, что позволяет исследователям строить собственные системы поиска на этом гигантском массиве данных.

🧮 Google Minerva: математика через языковые модели 5:18

Google Research анонсировала Minerva — систему, способную решать математические задачи, обучаясь на научных статьях и интернет-контенте в формате LaTeX.

Особенность обучения: Модель не обладает встроенным символьным представлением математики. Она «выучила» решение задач, анализируя доказательства и формулы в статьях на arXiv и MathJax.
Парсинг: Исследователи подчеркивают важность правильной обработки LaTeX. Обычные текстовые процессоры часто игнорируют форматирование (например, превращая степени в обычные символы), в то время как Minerva сохраняет логическую структуру формул.
Методология: Система использует «цепочку мыслей» (chain-of-thought prompting) и процедуру «голосования большинства» (majority voting), где из нескольких вариантов ответа выбирается наиболее часто встречающийся кластер.

Ведущий полагает, что метод голосования большинства может найти применение и в других областях, например, в обучении с подкреплением.

✍️ GPT-3 пишет статью о самой себе 9:18

Исследователи из Гётеборгского университета (Швеция) использовали GPT-3 для написания научной статьи о возможностях самой модели.

Процесс: Авторы старались минимизировать «отбор» (cherry-picking) результатов: в статью попадали первые или вторые варианты ответов модели.
Ирония: Килчер отмечает мета-уровень ситуации — GPT-3 пишет статью о том, может ли GPT-3 написать статью о себе.
Этический вопрос: При подаче статьи в журнал возник вопрос: дали ли авторы (включая саму модель) согласие на публикацию? Исследователи в шутку спросили GPT-3, согласна ли она быть соавтором, на что модель ответила «да».

Ведущий признает, что авторы исследования сами с иронией отнеслись к необходимости «лечить» модель как разумное существо, хотя прекрасно осознавали, что это лишь программный код.

⚖️ Академическая критика Юргена Шмидхубера 13:30

Завершая обзор, Янник Килчер упоминает блог-пост профессора Юргена Шмидхубера, в котором тот критикует недавнюю статью Яна Лекуна о «пути к автономному машинному интеллекту».

Суть претензии: Шмидхубер обвиняет Лекуна в том, что тот пересказывает старые концепции (в частности, работы 1990–2015 годов), не ссылаясь на первоисточники.
Мнение ведущего: Килчер считает, что обвинения могут быть технически обоснованы, так как в работе Лекуна действительно мало ссылок. Однако он задается вопросом, является ли такая агрессивная академическая полемика самым эффективным использованием интеллектуальных ресурсов.
Респект: Килчер отмечает, что, несмотря на конфликт интересов (Шмидхубер часто продвигает собственные работы), он прикладывает огромные усилия для восстановления исторической справедливости в науке, снабжая свои претензии подробными списками ссылок.