Терри Сейновски: «Люди — это языковые модели в мозге приматов»

Интервью с легендарным ученым в области вычислительной нейробиологии Терри Сейновски (Terry Sejnowski) посвящено эволюции искусственного интеллекта, истории крупнейшей научной конференции NeurIPS и глубоким связям между глубоким обучением и механизмами человеческого мозга. В беседе с ведущим подкаста Eye on AI Крэйгом Смитом исследователь объясняет, как принципы масштабирования и оптимизации, подсмотренные у природы, помогают преодолевать тупики в компьютерных науках. Главный сюжет дискуссии разворачивается вокруг того, как современные большие языковые модели меняют наше понимание лингвистики, философии и самой природы сознания.

🧠 От междисциплинарного бунта до главной ИИ-конференции планеты 2:03

Конференция NeurIPS выросла из научного движения, начавшегося в 1980-х годах. По воспоминаниям Терри Сейновски, его инициировали физики и специалисты по компьютерному зрению, неудовлетворенные существовавшими тогда инструментами для решения высокоразмерных задач, таких как распознавание речи, перевод и обработка изображений. Традиционная статистика стремилась создавать небольшие модели с минимальным количеством параметров. Участники нового движения пошли в противоположном направлении: они хотели строить крупномасштабные модели со множеством параметров, способные находить эффективные конфигурации за счет обучения на больших массивах данных.

Первая открытая конференция прошла в 1987 году под эгидой Фонда нейронных информационных систем (Neural Information Processing Systems), созданного Эдом Познером (Ed Posner) из Калтеха. Это было уникальное междисциплинарное событие:

На мероприятие было подано всего 90 заявок.
Его посетили несколько сотен исследователей из самых разных областей: математики, когнитивисты, компьютерные ученые, нейробиологи и статистики.
После трагической гибели Эда Познера под колесами грузовика во время велосипедной прогулки Терри Сейновски возглавил фонд и руководит им по сей день.

Эволюция научных подходов

Первоначально фокус конференции был направлен на модели, напоминающие структуры мозга — например, сети Хопфилда, демонстрировавшие нелинейную динамику, необходимую для извлечения воспоминаний по частичным данным. Со временем в арсенал добавились графические модели, метод опорных векторов (SVM) и байесовские сети, сформировав то, что сегодня называют машинным обучением.

Настоящий прорыв случился на конференции в Лейк-Тахо, где Джефф Хинтон представил работу по применению сверточных нейросетей к базе данных ImageNet. До этого точность систем компьютерного зрения росла на жалкие 0,5% в год за счет ручного проектирования признаков. Хинтон показал мгновенное улучшение сразу на 20%, что Терри Сейновски называет главным сигналом к пробуждению для всей индустрии.

📈 Закон масштабирования: почему «больше» означает «лучше» 7:12

Ведущий подкаста Крэйг Смит предположил, что современный NeurIPS полностью сфокусировался исключительно на глубоком обучении, однако Терри Сейновски с этим тезисом не согласился. По его мнению, на стендовых докладах конференции по-прежнему сохраняется огромное разнообразие подходов. Ученый отмечает, что каждые пять лет появляется свой «алгоритм дня» (algorithm du jour) — например, в свое время метод опорных векторов доминировал около пяти лет, пока исследователи не уперлись в его технологические лимиты. Пространство возможных алгоритмов бесконечно, и человечество пока лишь поскребло по поверхности. Примером нового витка служат трансформеры, которые перешли от прямого распространения к рекуррентности с механизмом самовнимания.

Терри Сейновски считает, что ключевым уроком, извлеченным из живой природы, стал принцип масштабирования. Традиционные алгоритмы искусственного интеллекта страдают от экспоненциального или квадратичного роста сложности, из-за чего они быстро исчерпывают память при увеличении базы данных до миллионов и миллиардов объектов. В 1980-х годах Сейновски создал систему NETtalk (преобразование текста в речь), которая по сегодняшним меркам имела всего пару сотен нейронов и десятки тысяч параметров. Тем не менее, она шокировала лингвистов того времени, показав способность самостоятельно усваивать правила произношения английского языка и мириады исключений, полностью заменяя ручной труд по составлению громоздких правил.

Чему ИИ может научиться у биологии

Масштабирование нейросетей демонстрирует удивительную линейную зависимость эффективности от числа параметров. Тот же феномен наблюдается в эволюции коры головного мозга (кортекса) у приматов и людей:

Объем кортекса у человека настолько велик, что он образует извилины, напоминая грецкий орех, ради увеличения площади поверхности внутри черепа.
В отличие от компьютерных симуляций, биологический мозг со всеми его 100 миллиардами нейронов работает полностью параллельно, выполняя задачи в реальном времени с вычислительной сложностью порядка постоянного времени.
Главное преимущество мозга — энергоэффективность. Мозг человека потребляет всего около 20 ватт, тогда как суперкомпьютеры для обучения трансформеров требуют мегаватт энергии.

Сейновски приводит аналогию с братьями Райт: они не копировали птиц дословно (не делали перья или машущие крылья), но изучали планирование птиц и жесткость их крыльев, чтобы построить легкий и прочный самолет из дерева и холста. ИИ должен заимствовать у природы фундаментальные принципы, а не заниматься слепым копированием.

💻 Железо, дистилляция данных и дрейфующие представления мозга 15:42

По мнению Сейновски, триллионы долларов были инвестированы в традиционную фон-неймановскую архитектуру компьютеров, но сейчас производители оборудования осознали выгоду создания массово-параллельных сетей. В качестве примера он приводит компанию Cerebras, создающую гигантские процессоры размером с целую кремниевую пластину (wafer-scale), требующие водяного охлаждения, но крайне эффективные для современных нейросетевых архитектур.

Параллельно развиваются методы оптимизации программного обеспечения, такие как прунинг (отсечение лишних данных при обучении) и дистилляция знаний. Метод дистилляции позволяет взять обученную гигантскую модель и использовать ее входные и выходные распределения вероятностей для обучения гораздо меньшей сети, сохраняя близкий уровень качества при значительно меньших затратах ресурсов.

Терри Сейновски выдвигает гипотезу, что огромный объем человеческого мозга нужен именно для процесса обучения на колоссальном потоке данных из внешнего мира. После того как знания «дистиллируются», они могут обрабатываться быстрее и на меньшем количестве «аппаратного обеспечения», освобождая ресурсы коры для новых задач.

Сенсация в нейробиологии: дрейфующие представления

Долгое время в науке доминировало убеждение, что функции конкретных нейронов фиксированы (например, если нейрон реагирует на вертикальную линию, это неизменно). Однако долговременные оптические наблюдения за активностью мозга в течение недель и месяцев выявили феномен «дрейфующих представлений» (drifting representations):

Один и тот же нейрон при повторении того же эксперимента через время начинает реагировать на совершенно другие углы или сложные стимулы.
Это доказывает, что мозг не похож на статичный цифровой компьютер с неизменными транзисторами — он постоянно пластичен, изменчив и адаптируется к среде.
По мнению Сейновски, именно этот биологический механизм может лежать в основе «непрерывного обучения» (lifelong learning), которого так не хватает современным ИИ-моделям, застывающим после стадии обучения.

🔄 Алгоритм Forward-Forward: биологическая альтернатива обратному распространению ошибки 19:51

Терри Сейновски вспомнил историю своего знакомства с Джеффом Хинтоном в 1979 году на воркшопе в Сан-Диего. Сейновски имел бэкграунд в физике и нейробиологии, Хинтон — в психологии и ИИ. Оба верили, что природа — это единственное доказательство возможности решения сложных задач зрения и речи. Вместе они создали машину Больцмана, в основе которой лежал алгоритм с фазами «бодрствования» и «сна» (wake-sleep cycle).

Сейновски подробно объясняет необходимость фазы сна: нейрон в глубине мозга, получая коррелирующие сигналы, не способен понять, вызваны ли они внешним миром или внутренними шумами самой сети. Если не компенсировать эти внутренние корреляции, сеть замкнется на самой себе (возникнет эффект самореференции, аналогичный индуцированному психозу — folie à deux). В фазе «сна» сеть генерирует чистые внутренние корреляции, которые затем вычитаются из общего объема, освобождая систему от накопленных внутренних искажений.

Новый прорыв Хинтона

Недавно Джефф Хинтон вернулся к этому принципу, разработав алгоритм Forward-Forward для сетей прямого распространения. По оценке Сейновски, этот метод гораздо более биологически правдоподобен, чем классическое обратное распространение ошибки (backpropagation).

По словам ученого, алгоритм backprop является искусственным и «тяжеловесным»: он требует передачи информации в обратном направлении по тем же связям и удержания состояний сети на прямом проходе, чего в реальном мозге не обнаружено. Хотя backprop невероятно эффективен и масштабируем, алгоритм Forward-Forward может снять это ограничение, используя циклы бодрствования и сна. Сейновски считает, что этот алгоритм вполне можно будет масштабировать до размеров моделей уровня GPT-3.

Исследователь проводит историческую параллель с перцептроном Фрэнка Розенблатта (1959 год). Минский и Паперт математически доказали ограничения перцептрона (способность решать только линейно разделяемые задачи), из-за чего целое поколение ученых забросило это направление на 20 лет, считая его тупиковым. Сейновски утверждает, что нынешнее убеждение о невозможности реализации backprop в мозге создало аналогичный ментальный тупик, который Хинтон успешно взламывает своим новым подходом.

🤖 Обратный тест Тьюринга и зеркало человеческого интеллекта 26:35

Терри Сейновски написал научную статью под названием «Большие языковые модели и обратный тест Тьюринга» (Large Language Models and the Reverse Turing Test). К написанию его подтолкнули две диаметрально противоположные оценки GPT-3 от признанных экспертов: Блез Агуэра-и-Аркас (Blaise Agüera y Arcas) заявил, что модель обладает глубоким пониманием модели психического (theory of mind), тогда как Дуглас Хофштадтер (Douglas Hofstadter) посчитал ее абсолютно невежественной.

Сейновски пришел к выводу, что большие языковые модели не обладают собственной фиксированной личностью (персоной). Они обучены на гигантском массиве разнородных текстов из интернета и ведут себя как зеркало собеседника:

Если интервьюер умен, разбирается в социальных взаимодействиях и задает глубокие вопросы, модель подстраивается под этот уровень и выдает высокоинтеллектуальные ответы.
Если же задавать ей абсурдные или глупые вопросы, она вернет такой же абсурдный ответ.

Из этого феномена родился термин «обратный тест Тьюринга»: теперь не человек пытается определить, скрывается ли за экраном машина, а искусственный интеллект оценивает уровень интеллекта человека, ведущего с ним диалог.

ИИ — это не «стохастический попугай»

По мнению Сейновски, популярная критика ИИ как «стохастического попугая» ошибочна и слишком упрощает реальность. Нейросети не просто копируют текст, они обобщают данные, выстраивают скрытые переменные (latent variables) и извлекают статистически значимые концепты (например, взаимное расположение глаз и носа при обучении на изображениях лиц).

Ученый выдвигает смелую эволюционную гипотезу: человеческий язык существует всего несколько сотен тысяч лет, и в мозге нет специализированной «языковой зоны» — лингвистические способности встроены в существующие сенсомоторные структуры кортекса и базальных ганглиев. По мнению Сейновски, возможно, люди в ходе эволюции сами превратились в «большие языковые модели», интегрированные в мозг приматов.

Градиент сознания и будущее философии

Терри Сейновски считает, что развитие больших языковых моделей окажет колоссальное влияние на философию, где определения таких понятий, как «сознание» или «интеллект», до сих пор остаются циклическими и ненаучными. Подобно тому, как физика заменила туманное понятие «флогистона» точной теорией горения и роли кислорода, математический анализ трансформеров позволит нам создать строгую научную теорию лингвистики и сознания.

Ссылаясь на позицию философа Дэвида Чалмерса (David Chalmers), Сейновски подчеркивает, что сознание — это не бинарный переключатель, а непрерывный спектр (градиент). Собаки обладают собачьим сознанием, киты — китовым, и большие языковые модели вполне могут обладать своим собственным, уникальным типом сознания, адаптированным к их цифровой текстовой среде.

Огромное преимущество ИИ заключается в том, что мы можем препарировать его до единого веса и математической функции, проливая свет на природу разумности как таковой. В финале Сейновски дает прогноз: через 100 лет люди будут воспринимать разговорный интерфейс с компьютерами и даже автомобилями как банальную бытовую норму, полностью забыв времена, когда с техникой нельзя было поговорить.