Эйсо Кант: «Вы не придете к AGI с помощью файн-тюнинга»

В индустрии искусственного интеллекта долгое время доминировало убеждение, что простое увеличение масштаба существующих языковых моделей способно автоматически привести к созданию общего искусственного интеллекта (AGI). Однако сооснователь и технический директор стартапа Poolside AI Эйсо Кант (Eiso Kant) в интервью для канала Machine Learning Street Talk ставит эту парадигму под сомнение. По его мнению, ключом к истинному интеллекту человеческого уровня является не пассивное подражание тексту, а глубокое обучение с подкреплением на основе детерминированной обратной связи из реального мира.

🛑 Почему нельзя «дотюнить» модель до уровня AGI 0:00

История создания компании Poolside AI неразрывно связана с принципиальным несогласием ее основателей с мейнстримным нарративом Кремниевой долины. Как вспоминает Эйсо Кант, в апреле 2023 года в мире ИИ преобладало мнение, что для достижения человеческого уровня мышления достаточно взять очередную базовую модель типа GPT, увеличить ее параметры в 10 раз и предоставить ей еще больше веб-данных. Наперекор общему тренду, команда Poolside изначально зафиксировала позицию: невозможно прийти к общему искусственному интеллекту исключительно с помощью поверхностной тонкой настройки (fine-tuning) или пост-обучения существующих открытых моделей.

По личным прогнозам Эйсо Канта, полноценный человеческий интеллект в подавляющем большинстве сфер умственного труда будет воспроизведен в коде в течение ближайших 18–36 месяцев. Достижение этой амбициозной цели требует фундаментального пересмотра архитектурных подходов и проектирования систем с самого нуля.

Идея специализированного ИИ-программиста зародилась у Канта давно. Еще в 2016 году он основал проект Source{d} — стартап, создавший первые в мире работающие модели автодополнения исходного кода. В 2017 году на этой почве произошло его знакомство с Джейсоном (Jason), занимавшим тогда пост технического директора (CTO) платформы GitHub. Джейсон даже сделал официальное предложение о покупке компании Source{d}, которое Кант отклонил. Тем не менее инженеры остались близкими друзьями и в апреле 2023 года объединили усилия для запуска Poolside.

🔄 Три оси масштабирования: от имитации к пробам и ошибкам 11:13

Традиционно развитие больших языковых моделей оценивалось по двум ключевым осям: объему доступных вычислительных мощностей (compute) и размеру обучающей выборки данных (data). Как утверждает технический директор Poolside, индустрия упустила из виду критическую третью ось развития — масштабирование обучения с подкреплением (Reinforcement Learning, RL). Соглашаясь с недавним тезисом известного ИИ-исследователя Андрея Карпати, Кант проводит жесткое разграничение между механизмами обучения: масштабирование предсказания следующего токена является полным аналогом имитационного обучения (imitation learning), в то время как масштабирование RL представляет собой обучение методом проб и ошибок (trial and error learning).

В процессе генерации мыслей и поиска решений ИИ должен опираться на строгую систему ограничений и постоянно сверяться с базовыми аксиомами предметной области — будь то правила математики или законы физики. Пытаясь обучаться исключительно на синтетических данных без контакта с внешней средой, любая модель рано или поздно превращается в «змею, пожирающую собственный хвост». Модели жизненно необходим внешний жесткий сигнал.

В играх вроде шахмат или го правила абсолютно детерминированы, что позволяет ИИ эффективно развиваться через самоигру. Человеческая обратная связь (RLHF), напротив, слишком плохо масштабируется и часто бывает субъективной или ошибочной. Именно обучение с подкреплением на стыке детерминированной среды способно сформировать функцию вознаграждения, которая безошибочно толкает модель в сторону математической корректности.

💻 Песочница на миллион репозиториев: механизм обратной связи Poolside 16:07

Главным технологическим дифференциатором и гордостью Poolside выступает собственная запатентованная методология обучения с подкреплением на основе отзывов об исполнении кода (Reinforcement Learning from Code Execution Feedback). Кант раскрыл внутреннее устройство этой обучающей среды:

Инфраструктура компании включает в себя порядка 1 миллиона программных репозиториев.
Каждый репозиторий полностью изолирован и контейнеризирован вместе со всем своим оригинальным тест-сьютом (набором тестов).
База содержит десятки миллионов исторических ревизий (коммитов).

В процессе обучения нейросети выдается задание: внести конкретное изменение в код на определенном хэше коммита. Модель исследует цепочки рассуждений, генерирует патч, после чего Poolside физически компилирует или интерпретирует полученный код, прогоняя его через тесты, линтеры и синтетические валидаторы. Программная среда возвращает ИИ абсолютно точный сигнал о том, стал ли код «более корректным» или «менее ошибочным».

Разнообразие задач внутри миллиона контейнеров (от криптографических библиотек и веб-приложений до низкоуровневых ядер баз данных) страхует модель от опасности локального оверфиттинга и общего коллапса. Благодаря этому ИИ развивает гибкий, обобщенный интеллект, способный планировать долгосрочные цели, а не просто заучивает шаблоны для конкретной узкой игры.

⚡ 4000 экспериментов в месяц и феномен DeepSeek 21:32

Эйсо Кант придерживается прагматичной философии: любую инженерную задачу в лаборатории можно свести либо к повышению вычислительной эффективности (в процессе обучения или инференса), либо к улучшению качества данных, повышающих интеллект модели. В качестве примера оптимизации инференса сооснователь Poolside приводит масштабные внутренние исследования в области так называемого линейного внимания (linear attention) — архитектурного подхода, вдохновленного сетями RNN. Модели с линейным вниманием были успешно развернуты в промышленной эксплуатации Poolside еще осенью прошлого года. Скорость проведения исследований в компании колоссальна: только за январь команда инженеров осуществила более 4000 экспериментальных запусков (experimental runs) для проверки весовых смесей, абляций данных и параметров RL.

В контексте высочайшей вычислительной эффективности Кант выразил глубокое уважение к результатам китайской компании DeepSeek, чей 47-страничный технический отчет по модели V3 детально изучался всей индустрией. По оценкам гостя, команда DeepSeek насчитывает всего около 200 исследователей и инженеров, подкрепленных инфраструктурой стоимостью более миллиарда долларов и двухлетним опытом открытых научных публикаций.

Комментируя слухи в Кремниевой долине, Кант прямо заявил, что не верит в теории о краже данных или нелегальных манипуляциях со стороны DeepSeek: китайские специалисты просто проделали великолепную и честную исследовательскую работу. Спикер напомнил, что оптимальная архитектура ИИ всегда диктуется физическим аппаратным обеспечением, а не наоборот. Инженеры обязаны смотреть на топологию чипов (например, на грядущую архитектуру NVIDIA GBX300, объединяющую 72 чипа через высокоскоростное соединение NVLink) и под нее проектировать внутренние механизмы параллелизма модели.

🧠 Эволюция «мышления» ИИ и уроки модели R1-Zero 36:04

Выход на рынок моделей со скрытым рассуждением на этапе инференса (Test-Time Compute), таких как OpenAI o1/o3, DeepSeek R1 или встроенное «мышление» в Claude 3.7 Sonnet, ознаменовал важный технологический сдвиг. Однако Кант выражает серьезный скепсис по поводу модной идеи о том, будто достаточно взять 100 тысяч готовых цепочек рассуждений (SFT-логов), дообучить ими стандартную базовую модель методом интерполяции и получить качественный скачок. По его мнению, подобные методы создают лишь иллюзию прогресса, подтягивая оценки на конкретных математических бенчмарках, но не дают реальной способности к генерализации рассуждений.

Настоящим прорывом, который, по словам Канта, «должен взорвать всем мозг», стала публикация результатов модели DeepSeek-R1-Zero. Нейросеть смогла самостоятельно развить навыки логического мышления, саморефлексии, исправления собственных ошибок и введения текстовых маркеров (например, слова «подожди» для перепроверки шага) на чистом естественном языке исключительно под воздействием алгоритмов RL, без какого-либо человеческого семени или готовых примеров рассуждений.

Кант настаивает на принципиальной важности удержания «мыслительного процесса» ИИ именно в рамках текстового формата, понятного человеку. Несмотря на многообещающие и более эффективные с точки зрения compute исследования в области рассуждений в латентном пространстве (latent space reasoning) или недавний выход диффузионных языковых моделей (diffusion language models) с их 10-кратным преимуществом в скорости генерации, текстовый след ИИ критически необходим. Наличие понятной цепочки рассуждений в виде слов — это единственный надежный фундамент для интерпретируемости, кибербезопасности и успешного выравнивания (alignment) целей ИИ с человеческими ценностями.

🏢 Бизнес-стратегия Poolside: развертывание моделей за файрволом 24:59

Оригинальный трехэтапный план Poolside, зафиксированный на главной странице сайта с первого дня существования стартапа, выглядит следующим образом:

Создать ИИ-системы, способные кардинально ускорить работу профессиональных разработчиков ПО.
Предоставить любому человеку на планете возможность беспрепятственно компилировать программы под свои нужды напрямую из идей.
Обобщить полученные интеллектуальные архитектуры и перенести их на другие домены — от материаловедения до поиска лекарств от рака.

В отличие от конкурентов, распыляющих ресурсы на B2C-пользователей (например, оптимизирующих чувство юмора ИИ или навыки написания детских сказок на ночь), Poolside сознательно выбрала строгий фокус на разработке программного обеспечения для Enterprise-сегмента. Кант опирается на сухую экономическую аналитику: до 70% всех бюджетов и денежных средств в мировой индустрии программирования тратится внутри крупных предприятий.

Однако Enterprise-среда — это мир жестких комплаенс-ограничений, регуляторных барьеров и корпоративных тайн. Главный тезис, который команда Poolside слышала от представителей списка Fortune 2000, формулируется так: «Приносите модель к данным, а не данные к модели».

Исходя из этого инсайта, Poolside поставляет свой технологический стек и веса моделей «под ключ» непосредственно внутрь периметра клиентов — в их частные изолированные облака (VPC) или на локальные сервера (on-premise) за корпоративные файрволы. Огромным коммерческим ускорением для компании стало заключение в декабре официального стратегического партнерства первого уровня с Amazon Web Services (AWS). Продукт Poolside теперь официально продается через маркетплейс Amazon, выступая для крупных корпораций в качестве стандартного сервиса AWS. Это позволяет финансовым гигантам и государственным ведомствам беспрепятственно списывать средства на покупку ИИ из своих долгосрочных предоплаченных spend-коммитов перед Amazon. Силами внутренней команды архитекторов решений (solutions architects) процедура инсталляции была оптимизирована до рекордных показателей: выдача одной ограниченной роли IAM позволяет развернуть весь сложнейший комплекс ПО Poolside внутри корпоративного аккаунта менее чем за 40 минут вместо нескольких дней.

🩺 Робот-хирург и борьба с джетлагом: человек в мире доступного ИИ 1:18:27

Сам Эйсо Кант признается, что активно использует обобщенный интеллект ИИ в повседневных рутинных задачах. Например, из-за частых рабочих перелетов он скармливает сторонней модели точные данные о своем текущем графике, съеденной пище, составе макронутриентов и просит рассчитать идеальный сценарий преодоления джетлага. Модель выдает строгие инструкции (например, «съесть белковую пищу с минимумом углеводов и лечь спать ровно на 90 минут»), которым Кант беспрекословно следует, подтверждая высокую эффективность «дешевого интеллекта».

Рассуждая об опасениях ИТ-сообщества перед лицом создания «нечитаемого», избыточно сложного кода, сгенерированного ИИ-агентами, Кант призывает избавиться от гипербол. Он напоминает, что в мире уже существуют легаси-системы и колоссальные кодовые базы (например, репозиторий самого Google), устройство которых в глобальном масштабе не способен удержать в голове ни один живой инженер на Земле, и человечество давно адаптировалось к этой реальности.

При этом появление неутомимых ИИ-агентов позволит направить миллиарды долларов вычислительного бюджета на автоматическое закрытие уязвимостей в критической инфраструктуре, исправление кода финансовых систем и покрытие тестами старых электросетей, до которых у вечно занятых людей десятилетиями не доходили руки. Философский взгляд на автоматизацию будущего сооснователь Poolside резюмирует емкой метафорой:

«В больнице будущего я бы очень хотел, чтобы медицинская сестра оставалась заботливым живым человеком, но вот хирурга за операционным столом я бы однажды однозначно предпочел видеть роботом».

Несмотря на неизбежную автоматизацию программирования, Кант настоятельно рекомендует родителям обучать своих детей написанию кода и сегодня. С его точки зрения, изучение языков программирования и проектирование алгоритмов — это в первую очередь великолепный тренажер для структурирования и развития собственного биологического мышления, ценность которого для человеческого опыта останется непреходящей.