Эйсо Кант: «Вы не сможете дообучить свой путь к AGI»

Эйсо Кант (Eiso Kant), сооснователь и технический директор стартапа Poolside AI, стал гостем подкаста Machine Learning Street Talk, чтобы обсудить будущее искусственного интеллекта и подходы к его обучению. В интервью эксперт подробно объясняет, почему простая масштабируемость существующих языковых моделей и их дообучение (fine-tuning) не приведут человечество к созданию сильного ИИ (AGI). По мнению спикера, ключом к новому технологическому прорыву является обучение с подкреплением на основе реальной обратной связи от исполнения программного кода.

🚀 Путь к AGI и философия создания Poolside 0:00

Эйсо Кант отмечает, что индустрия долгое время находилась под влиянием нарратива о линейном масштабировании языковых моделей. Большинство исследовательских лабораторий верили, что увеличение архитектуры GPT в 10 раз и насыщение её веб-данными автоматически приведёт к моменту создания AGI. Однако команда Poolside изначально не разделяла эту позицию, видя необходимость принципиально нового вектора развития. По прогнозам Канта, появление ИИ человеческого уровня во многих сферах интеллектуального труда произойдет уже в ближайшие 18–36 месяцев.

Истоки компании и трёхэтапный план

История партнёрства основателей Poolside началась задолго до официального старта проекта. Эйсо Кант начал программировать в раннем возрасте и в 2016 году основал компанию Source{d} — стартап, сфокусированный на генерации кода нейросетями. В 2017 году Джейсон (Jason), занимавший тогда пост технического директора GitHub, предложил выкупить Source{d}. Кант отклонил предложение о поглощении, однако предприниматели остались близкими друзьями. В апреле 2023 года они объединили усилия для создания Poolside.

С первого дня на сайте компании был зафиксирован трёхэтапный стратегический план:

Этап 1: Создание ИИ, способного эффективно ассистировать разработчикам в написании ПО.
Этап 2: Предоставление возможности любому человеку в мире создавать программное обеспечение без глубоких технических знаний.
Этап 3: Генерализация полученных ИИ-технологий и их перенос на все остальные прикладные научные и практические домены.

🧠 Ограничения предсказания токенов и сила обучения с подкреплением (RL) 11:13

Кант полностью поддерживает важность масштабирования вычислительных мощностей и объёмов данных, однако считает, что традиционные подходы упираются в тупик. Масштабирование предсказания следующего токена эквивалентно обучению с подражанием (imitation learning). В то же время обучение с подкреплением (Reinforcement Learning) представляет собой обучение методом проб и ошибок (trial and error). Без внешней детерминированной среды модель, обучающаяся только на синтетических данных, уподобляется змее, пожирающей собственный хвост.

Метод RLCEF как ключевая инновация

Для решения этой проблемы Poolside использует прорывной метод — обучение с подкреплением на основе обратной связи от выполнения кода (Reinforcement Learning from Code Execution Feedback, RLCEF). Компания создала масштабную изолированную экосистему, включающую:

Около 1 миллиона полностью контейнеризированных репозиториев.
Интегрированные наборы автоматических тестов для каждого проекта.
Десятки миллионов зафиксированных ревизий кода (коммитов).

ИИ получает конкретную задачу по модификации кода на определённом коммите, после чего система компилирует или интерпретирует результат. Полученный сигнал от тестов или компилятора позволяет алгоритму точно корректировать траекторию мышления, делая её «более правильной и менее ошибочной». Кант подчёркивает, что среда программирования уникальна: она достаточно детерминирована для получения чёткого вознаграждения, но при этом обладает колоссальным разнообразием задач, что защищает модель от коллапса и переобучения.

🏗️ Архитектурные инновации и экономика вычислений 19:04

Современные базовые модели оперируют в пространствах экстремально высокой размерности. Первая волна масштабирования улучшила репрезентацию наиболее часто встречающихся в интернете вещей — языка и базовых фактов. Однако она не смогла развить скрытые пространства, отвечающие за сложное многошаговое планирование и логические рассуждения. Применение RL позволяет исправить этот дисбаланс.

Эффективность вычислений и новые подходы

По словам технического директора Poolside, всю инженерную работу можно разделить на два ключевых направления: оптимизация эффективности вычислений (обучение и инференс) и улучшение качества данных. В рамках этих задач компания внедрила несколько технологических решений:

Линейное внимание (Linear Attention): Год назад Poolside сделала крупную ставку на RNN-подобное линейное внимание, и модифицированные модели успешно работают в продакшене с осени прошлого года. Это кардинально снижает стоимость инференса.
Диффузионные языковые модели: Появившиеся архитектуры демонстрируют 10-кратное преимущество в эффективности за счёт генерации текста всего за 5-6 диффузионных шагов вместо последовательного посимвольного вывода. Диффузия удобна для редактирования кода «в середине» блока. Тем не менее, Poolside пока не планирует переходить на этот метод из-за собственных закрытых разработок.
Аппаратная кастомизация: Оптимальная архитектура модели всегда диктуется возможностями чипов, а не наоборот. При переходе от графических процессоров серии Hopper к новым системам GBX300, где 72 чипа объединены шиной NVLink, архитектуру приходится полностью перестраивать под специфику межсоединений.

В качестве примера успешной реализации альтернативного подхода Кант приводит китайскую компанию DeepSeek. Коллектив из 200 исследователей, обладая инфраструктурой стоимостью более миллиарда долларов, за 2 года проделал выдающуюся работу, описанную в 47-страничном отчёте по модели V3. Эксперт опровергает слухи о краже данных и заявляет, что успех DeepSeek — это результат чистой инженерной оптимизации.

🏢 Развёртывание ИИ в корпоративной среде и стратегия Go-to-Market 24:59

Выбор фокуса Poolside обусловлен рыночной прагматикой: около 70% всех мировых бюджетов на разработку программного обеспечения тратится внутри крупных корпораций. При этом enterprise-клиенты представляют собой крайне сложные среды с жёсткими протоколами безопасности.

Доставка модели к данным

Главный бизнес-принцип Poolside звучит как «принеси модель к данным, а не данные к модели». Вместо предоставления публичного API компания разворачивает полноценный технологический стек, включая веса моделей и прикладные интерфейсы, непосредственно внутри закрытого контура клиента.

Инфраструктурная гибкость: Системы изолируются за корпоративными файрволами, в частных облаках (VPC) или на собственных серверах заказчиков (on-prem).
Ускоренное развёртывание: Благодаря разработанному методу managed install, развёртывание сложнейшей инфраструктуры в аккаунте клиента теперь занимает менее 40 минут с использованием одной ограниченной роли IAM.
Стратегическое партнёрство с AWS: В декабре Poolside объявила о глубоком соглашении с Amazon Web Services. Сервис продаётся напрямую через маркетплейс AWS, что позволяет корпорациям закрывать свои обязательства по минимальному объёму трат (spend commits) перед облачным гигантом.

👨‍💻 Трансформация процесса разработки и будущее программирования 50:36

Внедрение ИИ-ассистентов меняет саму структуру труда. В большинстве крупных компаний технологии дают стабильный прирост продуктивности в 20–30%, а на узких задачах вроде автоматизации юнит-тестов эффективность возрастает в 2–4 раза. Роль человека постепенно эволюционирует от написания кода к его ревьюированию и архитектурному надзору.

Судьба жизненного цикла ПО и важность языка

Эйсо Кант уверен, что традиционный жизненный цикл разработки (SDLC) со временем полностью «схлопнется» внутрь нейросетевых моделей. Для критически важных систем (таких как банковская инфраструктура или управление электросетями) строгие внешние проверки и тесты сохранятся, но выполнять их будут автономные ИИ-агенты.

Несмотря на автоматизацию, Кант призывает родителей мотивировать детей учиться программированию:

Написание кода — это мощный инструмент для тренировки собственного структурированного мышления.
Понимание логики работы программ помогает развивать общий интеллект.

Спикер также настаивает на критической важности сохранения рассуждений ИИ в текстовом формате на естественном языке, а не в скрытых латентных пространствах. Использование понятных цепочек мыслей (thinking traces) обеспечивает необходимый уровень интерпретируемости, что жизненно важно для сквозного контроля безопасности и выравнивания (alignment) интеллектуальных систем.