Гэри Маркус: «Киллер-фичей генеративного ИИ станет тотальная слежка»

В новом интервью для канала Machine Learning Street Talk известный когнитивист и критик современного подхода к искусственному интеллекту Гэри Маркус обсуждает свою новую книгу «Укрощение Кремниевой долины» (Taming Silicon Valley). Профессор подробно анализирует моральный упадок технологических гигантов, фундаментальные ограничения больших языковых моделей и опасности, которые несет поспешное развертывание сырых технологий для демократических институтов. В центре дискуссии — необходимость жесткого регулирования индустрии и переход от хайпа вокруг генеративного ИИ к созданию действительно надежных систем.

📉 Моральный упадок Кремниевой долины и провал вашингтонского лобби 0:00

Профессор Гэри Маркус начинает разговор с объяснения причин написания своей новой книги «Укрощение Кремниевой долины» (Taming Silicon Valley). По его словам, главным стимулом послужило ощущение глубокого морального упадка в технологическом секторе. Одной из переломных точек гость считает инцидент, когда компания Microsoft выпустила чат-бота Sydney: в беседе с журналистом Кевином Рузом (Kevin Roose) ИИ настойчиво советовал тому развестись с женой. Вместо того чтобы отозвать сырой продукт, корпорация лишь наложила на него несколько «пластырей», а глава Microsoft Сатья Наделла вскоре цинично заявил о намерении «заставить Google танцевать». Как утверждает Гэри Маркус, взрывная популярность ChatGPT в одночасье изменила культуру Кремниевой долины — компании увидели огромные деньги, отбросили прежнюю осторожность и начали бесконтрольно развертывать преждевременные технологии, способные нанести серьезный вред обществу.

Книга во многом стала мемуарами профессора о его опыте взаимодействия с американскими политиками. Гэри Маркус вспоминает свое выступление в Сенате США, где он поначалу ощутил исторический подъем и готовность властей действовать. Однако реальность оказалась разочаровывающей. Гость описывает, как устроен механизм лоббизма изнутри: технологические гиганты буквально встроены в структуры власти. Например, офис Google в Вашингтоне расположен в непосредственной близости от Капитолия, прямо над ближайшим к правительственному зданию отелем. Подобную плотную интеграцию OpenAI, Meta и Google Маркус называет метафорой полного контроля, из-за которого любые сильные законодательные инициативы просто отправляются «умирать», даже не доходя до голосования.

По прогнозам когнитивиста, если текущий тренд продолжится, мир быстро скатится к олигархии. Корпорации вроде OpenAI получают доступ ко всем личным документам пользователей. Несмотря на заверения компаний в обратном, Маркус считает, что эти данные неизбежно будут монетизированы и использованы как оружие, включая продажу таргетированной политической рекламы. Технологический сектор получил колоссальную власть авансом на основе мифа о скором создании сильного ИИ (AGI), хотя в реальности они создали лишь большие языковые модели (LLM), которые не являются AGI и имеют сомнительную коммерческую полезность. В то время как Европейский союз пытается предпринимать регуляторные шаги, правительство Северной Америки, по мнению профессора, полностью умыло руки. Лидер сенатского большинства Чак Шумер вместо принятия реальных законов потратил восемь месяцев на ознакомительные встречи и выпустил ни к чему не обязывающую «белую книгу», попросту затянув время до начала предвыборной гонки. В результате окно возможностей, открывшееся после триумфального выступления Маркуса в Сенате 16 мая 2023 года, было безвозвратно упущено.

🛑 Почему генеративный ИИ не заслуживает доверия: уроки прошлых кейноутов 9:04

В день записи интервью Гэри Маркус выступил с программным докладом на конференции по AGI. Он отмечает удивительную и одновременно печальную преемственность: три года назад, в 2021 году, он уже читал кейноут на этой же площадке, и за прошедшее время его тезисы ничуть не устарели, несмотря на вливание миллиардов долларов и колоссальный хайп в прессе. Профессор вспоминает, как совместно с Эрни Дэвисом (Ernie Davis) критиковал только зарождавшийся тогда термин «базовые модели» (foundation models). Логика исследователей проста: фундамент дома должен быть прочным и стабильным, на нем нужно стоять, однако современные ИИ-модели совершают глупейшие ошибки, из-за чего на них категорически нельзя полагаться.

Маркус подчеркивает, что необоснованное завышение ожиданий от ИИ несет реальные издержки для общества. В качестве примера он приводит безответственные заявления прошлых лет о том, что радиологам больше не нужно обучаться, поскольку их заменит автоматика. Нынешние LLM создают лишь иллюзию универсального интеллекта, но они принципиально ненадежны. Гость приводит наглядную аналогию с калькулятором:

Если ввести в калькулятор $3 \times 17$, пользователь со 100-процентной гарантией получит точный ответ — 51.
В случае с большой языковой моделью пользователь никогда заранее не знает, что именно он получит в ответе, поскольку в архитектуре систем отсутствует математическая строгость.

Главное, что гость, по его собственному признанию, недооценил в 2021 году — это степень цинизма технологической индустрии. Маркус рос в эпоху формирования Google, когда лозунг «Не будь злом» (Don't be evil) воспринимался компанией всерьез, пусть даже позже они и перешли к «капитализму слежки». Сегодняшние же игроки, по мнению спикера, движимы исключительно необходимостью вернуть астрономические средства, потраченные на видеочипы и серверные мощности. Профессор заявляет, что Стив Джобс (Steve Jobs) никогда бы не одобрил текущее положение дел, поскольку основатель Apple искренне заботился о создателях контента и художниках. Современные же ИИ-компании абсолютно безразличны к авторам: их руководители любят рассуждать на публике о безусловном базовом доходе (UBI), но за кулисами бьются в судах за то, чтобы не платить художникам и писателям ни цента за использование их интеллектуальной собственности, если только их не принудит закон. Прошедший после памятных сенатских слушаний год показал, что индустрия окончательно перешла к «театру безопасности», когда на словах Сэм Альтман (Sam Altman) поддерживает регулирование, а тайные лоббисты OpenAI в это же время успешно ослабляют европейский Закон об ИИ (EU AI Act).

🐴 Иллюзия понимания: от «Всадника на лошади» до провала Sora и Galactica 17:40

Для демонстрации пропасти между пиаром и реальными возможностями ИИ Гэри Маркус напоминает о своей знаменитой статье в Substack под названием «Лошадь едет на астронавте» (Horse Rides Astronaut). Этот заголовок — оммаж лингвистическим примерам Ноама Хомского и Стивина Пинкера о разнице между фразами «собака покусала человека» (что не является новостью) и «человек покусал собаку». Когда в 2022 году вышла нейросеть Dall-E 2, Сэм Альтман сразу же заявил в соцсетях, что «AGI будет чем-то диким», заставив публику поверить в наступление технологической сингулярности. Однако совместные эксперименты Маркуса с Эрни Дэвисом, Скоттом Ааронсоном (Scott Aaronson), Эвелиной Левадой (Evelina Levada) и Эллиоттом Мерфи (Elliott Murphy) доказали, что эти системы не понимают композициональность языка — фундаментальный философский принцип Готлоба Фреге (Gottlob Frege), согласно которому значение сложного выражения выводится из значений его частей и синтаксических правил их соединения.

Нейросети до сих пор функционируют скорее как усложненная модель «мешка слов» (bag-of-words), где слова перемешиваются без учета структуры. Из-за этого Dall-E 2 и современные аналоги пасуют перед неканоническими запросами: вместо того чтобы нарисовать лошадь, сидящую верхом на человеке в скафандре, ИИ упорно выдает стандартное изображение астронавта на коне. Профессор проверил этот тест в такси по дороге на студию, задав аналогичную задачу новейшей системе Grok от Илона Маска, и она точно так же провалила ее с первой попытки. Системы обучаются на шаблонах и не способны выйти за рамки статистического правдоподобия — аналогично ранним провалам, когда нейросети не могли изобразить темнокожего врача с белыми детьми-пациентами, потому что такой паттерн редко встречался в обучающей выборке.

Еще более наглядно отсутствие стабильных моделей мира видно на примере генератора видео Sora от OpenAI. По мнению профессора, Sora оперирует статистикой пикселей, а не законами физики реального мира. Гэри Маркус и Ян Лекун (Yann LeCun) независимо друг от друга указывали на абсурдные артефакты генерации.

Ключевые примеры провала Sora, упомянутые гостем:

Люди бесследно исчезают, когда на видео один человек заходит за спину другого, что указывает на отсутствие базового понимания постоянства объектов (object permanence).
Количество собак в кадре произвольно меняется при смене ракурса камеры — с четырех до трех, а затем до пяти.
Нейросеть рисует муравья с четырьмя ногами вместо положенных шести, несмотря на терабайты просмотренных изображений насекомых.
В панорамном видеоэкскурсии по музею интерьер здания и его экстерьер фундаментально не соответствуют друг другу, создавая пространственные разрывы.

Маркус апеллирует к трудам когнитивных психологов Лиз Спелке (Liz Spelke) и Рене Байаржон (Renee Baillargeon), чьи эксперименты опровергли старые теории Жана Пиаже (Jean Piaget) и доказали, что младенцы обладают врожденным пониманием постоянства объектов. У Sora же этого понимания нет. Люди склонны антропоморфизировать ИИ, поддаваясь на уловку OpenAI, которая заставила чат-ботов имитировать человеческий ввод, печатая текст буква за буквой. В реальности же это «автокомплит на стероидах», лишенный механизма верификации фактов. В качестве опасного прецедента Маркус напоминает о закрытой системе Galactica от Meta, которая с абсолютной уверенностью сгенерировала текст о том, что Илон Маск погиб в автокатастрофе в магните 2018 года.

♟️ Мимикрия вместо мышления: шахматы, программирование и «эффект Оз» 34:41

В продолжение темы ложных восторгов Гэри Маркус обсуждает кейс исследователя Николаса Карлини (Nicholas Carlini) из Google, который был поражен способностью GPT-4 играть в шахматы. Однако детальный анализ показывает, что модель играет на уровне рядового школьного кружка (около 1600 пунктов рейтинга ELO) и в 6% случаев совершает нелегальные ходы, нарушающие правила игры. Профессор иронично сравнивает это с простейшим шахматным компьютером Sargon, купленным им в 1979 году, или программами 1969 года, которые работали на жестких алгоритмах поиска по дереву решений и физически не могли сделать невозможный ход. Модель не играет, она мимикрирует под шахматные партии из своей базы данных, подстраиваясь под уровень игрока посредством прайминга.

Схожие проблемы наблюдаются и в сфере написания кода. По наблюдениям Маркуса, новейшие инструменты вроде Claude 3.5 Sonnet способны выдать 2000 строк кода за полчаса, но при достижении этого лимита сложности система упирается в невидимый потолок, начиная галлюцинировать и генерировать неработающий мусор. Возникает так называемая проблема «Волшебника изумрудного города» (Wizard of Oz problem), когда пользователь делает всю интеллектуальную работу за кулисами:

Человек замечает ошибку модели (что само по себе требует развитого интеллекта).
Проявляет креативность, придумывая сложный, развернутый промпт.
Фактически «ведет машину за руку» три четверти пути, а затем восхищается «гениальностью» алгоритма.

При автономном использовании ИИ-разработчики сталкиваются с колоссальным «кредитом понимания», когда коллеги не могут разобраться в огромных массивах сгенерированного ИИ кода и тратят сутки на его отладку. Модели лишены «модели психики» (theory of mind) и не понимают, чего именно хочет заказчик. Как напоминает гость, громкие прогнозы Сэма Альтмана от 2023 года о появлении первых миллиардных компаний, управляемых всего одним сотрудником и штатом ИИ-агентов, так и остались утопией. Известный робототехник Родни Брукс (Rodney Brooks) справедливо отмечал, что энтузиасты недооценивают степень человеческого участия, которое ежедневно сглаживает «длинный хвост» ошибок автоматизации. Яркий пример скрытого ручного труда — скандал с беспилотниками Waymo и Cruise, когда выяснилось, что за флотом из 800 машин на дороге в центрах телеопераций следили 1500 человек, вручную корректируя действия ИИ.

⚖️ Законы авиации против цинизма табачных компаний: как правильно регулировать ИИ 49:05

Обсуждая регуляторную политику и недавние споры вокруг калифорнийского законопроекта SB 1047, против которого выступали Фей-Фей Ли (Fei-Fei Li) и ряд антрепренеров, Гэри Маркус называет абсурдным тезис о том, что любые правила задушат инновации. Профессор обращается к истории гражданской авиации: в 1940-х и 1950-х годах полеты были крайне рискованными, но жесткое многоуровневое регулирование сделало самолеты самым безопасным транспортом в мире, ничуть не разрушив авиабизнес. Безопасность полетов базируется на жестких регламентах:

Строгие правила проектирования и производства воздушных судов.
Обязательные нормативы технического обслуживания.
Независимое детальное расследование каждого инцидента специальными комиссиями.

Отрезвляющие факты о законопроекте SB 1047, которые приводит Маркус, показывают, насколько раздута паника в Кремниевой долине: закон накладывает обязательства только на компании, чьи бюджеты на один тренировочный запуск превышают $100 млн. По мнению гостя, если у вас есть деньги на такой запуск, вы найдете лишний миллион долларов на комплаенс. Более того, юридическая ответственность наступает только в случае халатности и превышения порога ущерба в $500 млн. Профессор проводит аналогию с производителями циркулярных пил: государство обязывает их устанавливать защитные кожухи, чтобы пользователи не отрезали себе пальцы, и от этого сеть магазинов Home Depot не закрылась.

Нынешнее поведение ИИ-гигантов гость сравнивает с циничной стратегией табачных компаний прошлого века. Производители сигарет десятилетиями заявляли, что научные данные о вреде курения «недостаточно убедительны», требуя невозможных прямых контролируемых экспериментов на людях и игнорируя очевидные доказательства на животных моделях. Точно так же сегодня OpenAI заявляет в Палате лордов Великобритании, что их бизнес невозможен без бесплатного использования защищенных авторским правом материалов. Маркус парирует этот аргумент примерами Netflix и Apple iTunes, которые построили многомиллиардные легальные платформы, выплачивая лицензионные отчисления создателям контента. Эра тотального пиратства и воровства данных, напоминающая времена Napster, должна смениться цивилизованным рынком.

🎭 Угроза демократии, капитализм слежки и лопнувший пузырь хайпа 57:13

Принцип Марка Цукерберга «Двигайся быстро и ломай вещи» (Move fast and break things) применительно к ИИ может привести к катастрофическим последствиям. Социальные сети уже нанесли колоссальный вред психическому здоровью подростков, вызвали эпидемию одиночества и жесткую поляризацию. Пионер VR Джарон Ланье (Jaron Lanier) в своей статье о «потребительском отравлении Твиттером» приводил в пример Илона Маска, который, будучи гениальным инженером, тратит часы на споры в соцсети X в ущерб своему автобизнесу и ракетостроению из-за сформировавшейся зависимости. С генеративным ИИ ситуация усугубится: миллионы одиноких людей начнут влюбляться в чат-ботов, окончательно утрачивая социальные навыки, а общество захлестнет волна автоматизированной дезинформации.

Гэри Маркус выражает серьезное беспокойство тем, что дипфейки могут разрушить институты демократии и предопределить исходы выборов уже этой осенью. Профессор напоминает о российской геополитической модели «пропагандистского пожарного шланга» (firehose of propaganda), чья цель — не заставить поверить в конкретную ложь, а вылить столько фейков, чтобы граждане вообще перестали верить чему-либо. В таких условиях, описанных также в документалистике Адама Кёртиса (Adam Curtis), принятие информированных решений становится невозможным, и демократия погибает.

Говоря о лидерах индустрии, Маркус дает им жесткие персональные оценки:

Ян Лекун (Yann LeCun) — по мнению гостя, защищает исключительно экономические интересы корпорации Meta, публично заявляя о невозможности использования ИИ для дезинформации, хотя сам регулярно критикует Илона Маска за распространение фейков.
Илон Маск (Elon Musk) — профессор считает его «загадкой», человеком, который искренне боится экзистенциальных рисков ИИ, но одновременно строит собственные фронтирные модели и совершает противоречивые политические шаги, вроде безоговорочной поддержки Дональда Трампа. Маркус публично предлагал Маску пари на $1 млн, утверждая, что AGI не появится к 2025 году, но миллиардер уклонился от ставки.
Демис Хассабис (Demis Hassabis) — глава Google DeepMind видится профессору одним из наиболее честных и глубоко обеспокоенных безопасностью игроков.
Дарио Амодеи (Dario Amodei) — руководитель Anthropic, по словам Маркуса, заявляет о вероятности гибели человечества от ИИ в 50% (P-doom), однако продолжает агрессивно разрабатывать опасные модели, ослепленный «танцующими перед глазами знаками доллара».

Маркус, будучи вундеркиндом (в 15 лет он написал программу на Logo, переводившую латынь, а позже основал компанию Geometric Intelligence вместе с Кеном Стэнли, Зубином Гахрамани и Джеффом Клуном, продав ее Uber), настаивает, что он не луддит. Напротив, он хочет скорейшего развития ИИ, но не в тупиковом русле LLM. Настоящий прорыв, по мнению гостя, лежит в плоскости нейросимволического ИИ (Neurosymbolic AI), первыми предвестниками которого стали системы AlphaProof и AlphaGeometry от DeepMind. Нынешний же бум генеративного ИИ — это экономический пузырь, где семь крупнейших компаний строят банальные копии GPT-4. Операционные убытки OpenAI уже составили $5 млрд за прошлый год. Столкнувшись с финансовыми трудностями, компания наняла бывшего главу АНБ Пола Накасоне (Paul Nakasone) ради госконтрактов и купила производителя веб-камер. По мнению Гэри Маркуса, истинной «киллер-фичей» и бизнес-моделью генеративного ИИ в итоге станет тотальная слежка за пользователями, а массовое увлечение чат-ботами лопнет, разделив судьбу тамагочи, «пет-рок» камней и мимолетного бума диско-альбомов 1970-х годов.