Ричард Сочер рассказал о скрытых барьерах на пути к сильному ИИ

В новом выпуске подкаста 20VC ведущий Гарри Стеббингс обсуждает с основателем You.com Ричардом Сочером тектонические сдвиги в индустрии машинного обучения. Бывший главный научный сотрудник Salesforce делится инсайдами о жесткой конкуренции между стартапами и технологическими гигантами, развенчивает мифы о скором приходе сильного искусственного интеллекта (AGI) и объясняет, почему современный поиск должен кардинально измениться.

🎓 От лингвистики к большим языковым моделям: путь Ричарда Сочера 0:25

Путь Ричарда Сочера в сфере искусственного интеллекта начался в 2003 году, когда он стал изучать лингвистическую компьютерную замену в Лейпцигском университете. На заре развития обработки естественного языка (NLP) гость почувствовал нехватку математической строгости в этой дисциплине, что подтолкнуло его переключиться на компьютерное зрение. Свою магистерскую диссертацию он посвятил медицинскому компьютерному зрению, глубоко погрузившись в статистическое обучение и распознавание образов.

Поворотный момент в карьере исследователя произошел во время докторантуры (PhD). Ричард Сочер увидел, как его коллеги используют глубокое обучение и нейросети для обработки крошечных изображений цифр размером 32 на 32 пикселя. У него возникла идея: применить те же принципы, что использовались в компьютерном зрении, для анализа текстовой информации.

Этот шаг положил начало долгой череде открытий. Впоследствии Ричард Сочер и его команда внесли фундаментальный вклад в индустрию, разработав:

Алгоритмы векторного представления слов GloVe.
Контекстные векторы для анализа текстов.
Первые концепции промпт-инжиниринга.
Единую универсальную модель для решения всех задач NLP.

💼 Школа Salesforce и уроки Марка Бениоффа 1:42

Важным этапом в жизни Ричарда Сочера стал пост главного научного сотрудника (Chief Scientist) в ИТ-гиганте Salesforce. По словам гостя, этот опыт дал ему колоссальные знания в области эффективного маркетинга и корпоративного менеджмента. Ричард Сочер подчеркивает, что по мере роста крупным корпорациям жизненно необходимо иметь собственные исследовательские команды — это позволяет видеть контуры будущего и в некоторых случаях самостоятельно его формировать. В отличие от гигантов, маленькие стартапы лишены такой роскоши и вынуждены фокусироваться на создании продуктов, которые можно запустить в кратчайшие сроки.

Особое место в воспоминаниях исследователя занимает менторство Марка Бениоффа, генерального директора Salesforce. Как утверждает Сочер, Бениофф сочетает в себе редкие качества:

Искреннее, доброе сердце и эмпатию.
Жесткую деловую хватку, позволяющую строить бизнес планетарного масштаба.
Ориентированность на социальный и экологический импакт, включая поддержку местных школ и защиту окружающей среды.

Главный урок, который Ричард Сочер перенял у руководителя Salesforce, заключается в умении очень много слушать окружающих, но в критические моменты брать на себя ответственность и принимать масштабные, волевые решения.

📈 Хайп против реальности: экспоненциальный рост и новые интерфейсы 3:45

Отвечая на вопрос Гарри Стеббингса о том, переживает ли индустрия фундаментальный технологический сдвиг или же это очередной раздутый цикл хайпа, Ричард Сочер предлагает сбалансированный взгляд. По его мнению, человечество находится в самом начале экспоненциального улучшения множества различных технологических возможностей одновременно. В то же время на рынке присутствуют завышенные ожидания: многие ошибочно полагают, что этот взрывной рост будет продолжаться бесконечно и без остановок.

Иллюстрацией текущего хайпа Сочер считает стремление людей использовать интерфейс текстового чат-ботов абсолютно для любых задач. Проводя историческую аналогию с технологией распознавания речи, гость вспоминает, как на заре ее внедрения разработчики пытались создать голосовой поисковик ресторанов. На практике это оказалось крайне неудобным: вместо того чтобы быстро посмотреть карту, пользователю приходилось часами выслушивать зачитываемый голосом список из 300 заведений вокруг.

Как считает основатель You.com, будущее за мультимодальным взаимодействием. В качестве примера он приводит работу своей поисковой платформы:

Когда пользователь запрашивает стоимость акций компании, система не генерирует случайный текст, как это делают обычные LLM.
Вместо текстового ответа интерфейс выводит интерактивный финансовый тикер с реальными котировками в реальном времени.

Общий уровень возможностей ИИ стремительно растет, однако этот процесс сопровождается регулярными краткосрочными волнами необоснованного оптимизма.

🧠 Эволюция ИИ: рождение промпт-инжиниринга и концепция единой модели 8:45

Вспоминания начало 2010-х годов, Ричард Сочер отмечает, насколько кардинально изменилось отношение научного сообщества к нейросетям. В 2010–2011 годах воркшоп по глубокому обучению собирал всего около 40 человек, среди которых были Джеффри Хинтон, Йошуа Бенжио и сам Ричард, тогда еще аспирант. В те годы классическое ИИ-сообщество игнорировало нейросети. Ученым приходилось сталкиваться с жестким неприятием: статьи Сочера регулярно отвергались академическими рецензентами, которые не верили в перспективность отказа от ручного проектирования признаков (feature engineering) в пользу обучения на сырых данных. Академический мир, по замечанию Сочера, полон эгоизма и внутренних интриг, что роднит его с сюжетом фильма «Оппенгеймер».

В 2018 году команда Сочера совершила прорыв, изобретя промпт-инжиниринг и создав единую модель DecaNLP, способную одновременно выполнять 10 сложнейших текстовых задач. Эта работа вдохновила инженеров OpenAI, которые впоследствии сослались на исследование Сочера в своих первых публикациях по GPT. Именно этот успех заставил Ричарда запустить You.com: он понял, что если универсальная модель справляется с разными задачами в лаборатории, то она способна трансформировать главную NLP-задачу человечества — интернет-поиск.

Долгое время в индустрии доминировал подход, согласно которому под каждую задачу должен создаваться отдельный изолированный инструмент:

Один узкий алгоритм занимался исключительно анализом тональности текста (sentiment analysis).
Второй — автоматическим суммаризатором длинных документов.
Третий — переводом с одного языка на другой.
Четвертый — поиском ответов на вопросы в статьях Википедии.

Ричард Сочер сравнивает этот подход с абсурдной ситуацией, когда под создание каждого нового словаря открывалась бы отдельная компания с нуля. Главным доказательством возможности существования единой модели гость называет человеческий мозг. Человек не меняет свой мозг, когда переходит от решения математического уравнения к переводу фразы или оценке чужих эмоций. Реализовать эту концепцию раньше мешало отсутствие гигантских вычислительных мощностей, быстрых графических процессоров (GPU) и механизмов внимания (attention mechanisms).

🥊 Стартапы против ИТ-гигантов: данные, «тонкие обертки» и дилемма инноватора 16:50

В дискуссии о доступности обучающих данных мнения экспертов расходятся: одни считают, что преимущество на стороне ИТ-гигантов с их приватными базами, другие — что открытые данные в интернете уравняли шансы. По мнению Сочера, правы обе стороны. Неразмеченный текст в сети доступен каждому, но если компании нужно автоматически отвечать на клиентские письма, колоссальное преимущество получают такие гиганты, как Salesforce, обладающие огромными архивами реальных диалогов и готовых баз знаний.

Тем не менее появление фундаментальных (foundational) моделей изменило правила игры. Раньше маленькому стартапу было немыслимо создать поисковую систему, понимающую множество языков. Сегодня благодаря готовым LLM молодые компании могут мгновенно собрать MVP, решающий задачу на 80%, и затем дорабатывать оставшиеся 20% за счет специфических данных.

Ричард Сочер не согласен с популярным в венчурной среде утверждением, будто большинство ИИ-стартапов — это лишь «тонкие обертки» (thin wrappers) над чужими моделями, не имеющие собственной ценности. Безусловно, поверхностные проекты существуют, но критики часто недооценивают инженерную сложность создания работающей инфраструктуры. Гость приводит в пример Instagram: его защитный барьер (moat) заключался не в уникальных алгоритмах бэкенда, а в дистрибуции, партнерствах и выстроенных воронках.

Для создания качественного поиска You.com пришлось построить сложнейший retrieval-бэкенд. Современная языковая модель сама по себе является лишь «движком для рассуждений» (reasoning engine), но ее собственная память ненадежна. Ричард Сочер сравнивает память базовой LLM с болтливым дядей, который красочно пересказывает истории из прошлого, но постоянно путает и преувеличивает детали. Чтобы модель не галлюцинировала, в нее необходимо принудительно внедрять точные факты, извлеченные из поискового индекса в режиме реального времени (например, о недавнем переходе Месси в футбольный клуб «Майами»).

Касаясь темы галлюцинаций, которую некоторые основатели (например, Эмад Мостак из Stability AI) называют «фичей, а не багом», Сочер отмечает контекстуальную зависимость. Если пользователь хочет сочинить фантастический рассказ про вторжение инопланетян в Берлин в 2027 году, то способность модели генерировать вымысел идеальна. Но если тот же алгоритм начинает выдавать конспирологические теории про «политиков-ящериц» в ответ на серьезный фактологический запрос, это становится огромной проблемой для поисковой системы.

🔓 Будущее архитектур: победит ли открытый исходный код? 27:44

На рынке технологических провайдеров безусловным лидером остается компания OpenAI. Однако Ричард Сочер выражает уверенность в том, что решения с открытым исходным кодом (open source) в конечном итоге захватят большую часть коммерческих сценариев использования. Выход модели Llama 2 от Meta показал, насколько близко открытые алгоритмы подобрались к возможностям проприетарной системы GPT-3.5.

Движущей силой open-source моделей Сочер считает мировое академическое сообщество. Тысячи талантливых ученых в университетах по всему миру рискуют остаться без работы и публикаций, если вся индустрия замкнется на закрытых платных API, внутреннее устройство которых невозможно проанализировать или улучшить. У академических институтов нет 20 или 50 миллионов долларов на обучение одной модели с нуля, поэтому они будут кооперироваться для развития открытых систем.

Главным препятствием для победы открытого ИИ остается сложность координации. По мнению Сочера, идеальным сценарием стало бы создание единой глобальной модели по принципу Википедии, где весь мир совместно вносит улучшения и верифицирует данные через систему выстраивания доверия. Государство могло бы помочь с финансированием таких открытых проектов, однако гость признает, что распределение бюджетных средств налогоплательщиков на рискованные научные изыскания всегда сопряжено с жесткой бюрократией и общественным недовольством в случае неудач.

🔍 Переосмысление поиска: конец эпохи «10 синих ссылок» 33:03

Интернет-поиск является самой высокоимпактной технологией в сфере NLP, формирующей триллионные рынки. Поисковые системы определяют, как люди учатся, как они формируют свои взгляды на мир и как функционирует современная демократия. Ричард Сочер убежден, что парадигма выдачи списка из «10 синих ссылок», доминировавшая последние 15 лет, безнадежно устарела.

Современный ИИ-поиск должен сразу выполнять действие или давать готовый агрегированный ответ:

Вместо открытия десятка вкладок на StackOverflow для поиска кода функции Фибоначчи на Python, You.com сразу пишет готовый код с кнопкой копирования.
Студентам система помогает мгновенно составить черновик эссе со строгими проверяемыми цитатами и источниками.
Интерфейс может пошагово разобрать сложную математическую задачу.

Однако такой подход подрывает традиционную экономику интернета. Если поисковик забирает контент с сайта СМИ или блога и выдает его пользователю в чате, оригинальный создатель контента лишается трафика и рекламных кликов.

В качестве решения You.com развивает концепцию открытой платформы, запущенную в прошлом году. Ее идея заключается в том, что издатели и разработчики могут интегрировать свои приложения внутрь поисковика и напрямую участвовать в распределении доходов или предлагать подписки прямо в окне чата. Гость честно признает, что на данный момент проект демонстрирует медленный рост (slow uptick), поскольку у платформы пока нет сотен миллионов пользователей, необходимых для привлечения тысяч сторонних авторов.

🛑 Дилемма инноватора и война за дистрибуцию 37:30

Борьба между стартапами и технологическими гигантами упирается в классический вопрос: успеет ли стартап получить дистрибуцию быстрее, чем инкумбент скопирует инновацию. Дистрибуция для молодой компании — это непрекращающаяся тяжелая битва. В качестве примера жесткой конкуренции Ричард Сочер упоминает, что You.com столкнулся с пессимизацией (de-ranking) своих страниц со стороны поисковой системы Google, что привело к мгновенному падению органического трафика.

Конкуренты в лице Microsoft Bing и Google активно копируют функции чат-поиска с цитатами, которые You.com представил в декабре 2022 года — раньше всех в мире. Но Сочер видит уязвимость гигантов в «дилемме инноватора». Google зарабатывает порядка 500 миллионов долларов в день на поисковой рекламе, которая часто собирает клики из-за перегруженности страницы SEO-оптимизированным мусором.

ИТ-гигант не может в одночасье заменить свой привычный интерфейс на чистый чат-ответ:

Это приведет к ликвидации пяти-шести рекламных блоков вверху страницы.
Компания мгновенно потеряет сотни миллионов долларов ежедневной выручки.
Любые изменения в дизайне Google тестируются годами (проверяется каждый оттенок синего цвета), что лишает их гибкости.

Эта медлительность дает стартапам окно возможностей, хотя исполнительному директору приходится оставаться «немного параноиком», имея дело с конкурентами с триллионной капитализацией.

🔮 Мифы об AGI и новые экономические узкие горлышки 43:44

Экстраполяция текущих успехов ИИ в бесконечный линейный или экспоненциальный рост кажется Ричарду Сочеру чрезмерно оптимистичной. История знает немало примеров, когда бурное развитие технологии упиралось в S-образную кривую и затухало. В средние века создание механических поющих кукол заставило королей поверить, что человеческий мозг состоит из шестеренок, но развитие механики не привело к созданию искусственного разума.

Точно так же в авиации: совершив гигантский скачок от первых самолетов братьев Райт до сверхзвуковых истребителей за 30–40 лет, индустрия замедлилась из-за законов физики и экономии топлива. Сегодня человечество летает даже медленнее, чем во времена Concorde, а возвращение космонавтов с орбиты в капсулах на парашютах выглядит менее технологично, чем приземление многоразовых шаттлов.

Затухание экспоненты Сочер видит на примере генерации изображений: современные алгоритмы Midjourney уже достигли предела фотореализма, и развивать эту технологию дальше внутри двухмерных картинок практически некуда. Концепцию «сверхчеловеческого языка» гость считает парадоксом: язык создан людьми для последовательной передачи мыслей. Компьютеры могут общаться друг с другом терабайтами данных по тысячам параллельных каналов, но человек физически способен воспринимать информацию только последовательно, поэтому ИИ ограничен рамками человеческого понимания.

Автоматизация неизбежно затронет рабочие места, и Сочер выражает глубокую эмпатию к людям, чьи профессии пострадают. Век технологических революций всегда сопровождался потрясениями: луддиты ломали ткацкие станки, защищая свой заработок. Иллюстраторам, которые раньше брали 1000 долларов за три дня работы, придется адаптироваться к реальности, где генерация качественного визуала занимает три минуты.

Однако автоматизация цифровой сферы приведет к неожиданному экономическому сдвигу:

Профессии, связанные с физическим трудом в непредсказуемой среде (плотники, строители, уборщики жилых домов), невозможно автоматизировать из-за отсутствия структурированных данных для обучения роботов.
Автопилот, справляющийся с автострадой, еще долго не сможет уверенно водить машину по грязной проселочной дороге туманной ночью.
Стоимость физических услуг будет стремительно расти, и именно ручной труд станет новым главным узким горлышком (bottleneck) для роста глобального ВВП.

В конечном счете человечество всегда находило новые сферы занятости. 150 лет назад более 90% населения Земли было занято в сельском хозяйстве, чтобы просто прокормить планету; сегодня этот показатель в развитых странах составляет около 5%, а высвободившиеся люди нашли себя в других профессиях.

🎯 Три барьера на пути к общему искусственному интеллекту 53:55

Ричард Сочер отказывается называть системы ИИ «разумными» или «мыслящими», пока весь их алгоритм сводится к банальному предсказанию следующего токена (слова) в тексте. Настоящий интеллект подразумевает наличие у сущности собственных долгосрочных целей и независимого разума.

Гость выделяет три ключевых барьера, которые препятствуют созданию полноценного AGI:

Отсутствие внутренней мотивации и целеполагания. Современные нейросети не обладают собственными желаниями; они лишь генерируют математически наиболее вероятное продолжение текста.
Экономические рамки капитализма. Коммерческие компании создают ИИ исключительно ради извлечения прибыли, а государства — ради повышения продуктивности экономики. Никто в индустрии не заинтересован в финансировании разработки ИИ, который будет «делать все, что ему вздумается», поскольку такой хаотичный алгоритм невозможно монетизировать.
Игнорирование реальных рисков ради фантастики. ИИ-сообщество увлеклось обсуждением фантастических сценариев гибели человечества, напоминающих голливудские боевики, вместо решения насущных проблем — таких как недооцененность систем извлечения фактов (RAG) и текущее смещение рынка труда.

В финальном блиц-опросе Ричард Сочер признался, что не стал подписывать знаменитую петицию Илона Маска с призывом приостановить обучение мощных ИИ-моделей. По его мнению, ставить прогресс на паузу бессмысленно: это похоже на требование к компании Tesla прекратить обновление автопилота. Владелец электромобиля ожидает, что система безопасности будет становиться лучше с каждым апдейтом, и глупо бояться, что по достижении определенного уровня интеллекта машина решит угнать сама себя и уехать встречать закат. Через 10 лет Сочер видит свой проект You.com поисковым интерфейсом по умолчанию на компьютерах сотен миллионов и миллиардов пользователей по всему миру.