Джаред Каплан, сооснователь Anthropic и бывший физик-теоретик, уверен: прогресс ИИ определяется не внезапным «озарением» исследователей, а строгими законами масштабирования. В беседе на площадке Y Combinator он объясняет, почему предсказуемость развития моделей позволяет прогнозировать достижение человеческого уровня ИИ к 2027 году и как стартапам использовать этот «неизбежный» рост вычислительных мощностей.
🧬 От физики элементарных частиц к нейронным сетям 0:00
Джаред Каплан начал свою карьеру как физик-теоретик, занимаясь теорией струн, космологией и физикой на Большом адронном коллайдере . Его мотивацией было понимание устройства Вселенной и поиск ответов на фундаментальные вопросы, такие как детерминизм и свобода воли. Однако к 2005–2009 годам он почувствовал фрустрацию из-за медленного прогресса в академической науке.
В то время Каплан скептически относился к искусственному интеллекту, считая методы опорных векторов (SVM) скучными . Его мнение изменили коллеги и друзья (будущие основатели Anthropic), которые убедили его в том, что в области ИИ начинается нечто масштабное. Каплан отмечает, что переход в AI позволил ему применить физический подход — поиск максимально простых и точных макротрендов в сложных системах .
📈 Законы масштабирования: физика обучения ИИ 2:27
Современные модели (Claude, ChatGPT) проходят две фундаментальные фазы обучения, и обе они подчиняются строгим эмпирическим закономерностям :
- Предварительное обучение (Pre-training): Модель учится предсказывать следующее слово, имитируя человеческие данные и понимая корреляции в огромных массивах текста и мультимодальных данных .
- Обучение с подкреплением (Reinforcement Learning, RL): Оптимизация поведения модели на основе обратной связи от людей, чтобы сделать её полезной, честной и безвредной .
Ключевые выводы Каплана о масштабировании:
- Точность прогнозов: Около пяти-шести лет назад команда Каплана обнаружила, что при увеличении объема вычислений, данных и размера нейросети производительность растет предсказуемо . Эти тренды оказались такими же точными, как законы в астрономии или физике .
- Масштабирование в RL: По словам Каплана, закон масштабирования работает и для фазы RL. Он приводит в пример исследование Энди Джонса, который показал линейный рост рейтинга Эло (ELO score) при увеличении вычислительных мощностей в игре Hex .
- Движение «по накатанной»: Прогресс ИИ обусловлен тем, что индустрия нашла простой способ систематического улучшения моделей и просто «крутит эту ручку» .
⏳ Горизонт задач: путь к AGI к 2027 году 8:20
Каплан разделяет возможности ИИ по двум осям: гибкость (модальности, такие как текст, зрение, звук) и временной горизонт задач . Вторая ось кажется ему наиболее интересной.
Важные цифры и прогнозы:
- Удвоение каждые 7 месяцев: Исследовательская организация METR обнаружила, что длительность задач, которые ИИ способен выполнять успешно, удваивается примерно каждые семь месяцев .
- Прогноз на 2027 год: Если тренд сохранится, к 2027 году ИИ сможет выполнять задачи, требующие не минут или часов, а дней, недель и месяцев работы .
- Научные прорывы: По мнению Каплана, системы ИИ смогут выполнять работу целых научных сообществ. То, на что у физиков-теоретиков уходит 50 лет, ИИ может сделать за недели .
🛠️ Что нужно для ИИ человеческого уровня 11:18
Для достижения уровня человеческого интеллекта (AGI) в широком смысле, по мнению сооснователя Anthropic, не хватает нескольких «простых» ингредиентов:
- Организационные знания: Модели должны уметь работать внутри компаний и правительств, обладая контекстом сотрудника, проработавшего там годы .
- Память: Каплан отличает память от знаний. Это способность отслеживать прогресс в рамках конкретной долгосрочной задачи и использовать накопленный опыт . Это направление уже внедряется в Claude 4 .
- Тонкий надзор (Oversight): Сейчас легко обучать ИИ кодингу или математике, где результат бинарен (правильно/неправильно). Сложность заключается в генерации вознаграждения для «нечетких» задач: написать хорошую шутку, стихотворение или обладать вкусом в исследованиях .
🚀 Claude 4 и тактика для стартапов 13:44
Обсуждая запуск Claude 4, Каплан подчеркнул переход от простого чат-бота к агенту.
Особенности Claude 4:
- Агентность в кодинге: Модель лучше справляется с ролью агента, умеет использовать поиск и другие инструменты, следуя инструкциям более точно .
- Управление контекстом: Claude 4 может сохранять память в виде файлов или записей, что позволяет ей работать над сложными задачами, выходящими за рамки одного контекстного окна .
Советы Джареда Каплана для фаундеров YC:
- Стройте то, что не работает сегодня: ИИ умнеет так быстро, что продукт, который кажется невозможным на Claude 4, станет востребованным на Claude 5 . Нужно экспериментировать на границах текущих возможностей.
- ИИ для интеграции ИИ: Главное узкое место сейчас — скорость внедрения технологии в бизнес и науку. Использование моделей для автоматизации этой интеграции — огромная ниша .
- Ищите «зеленые поля»: Помимо кодинга, Каплан видит потенциал в финансах (работа с Excel) и юриспруденции .
- Человек как менеджер: Каплан считает, что из-за специфики ИИ (способность генерировать часто превышает способность оценивать качество) роль человека сместится в сторону «санити-чека» и управления .
🧪 Физика в ИИ: сила «глупых» вопросов 26:18
Каплан утверждает, что его академическое прошлое помогло ему в исследованиях Anthropic. Его главный метод — задавать «наивные» вопросы. Когда исследователи говорят, что обучение сходится экспоненциально, он спрашивает: «Вы уверены? Может быть, это степенной закон или квадратичный?» .
Другие принципы из физики:
- Приближение больших матриц: Нейросети состоят из гигантских матриц (миллиарды и триллионы параметров). В физике и математике есть хорошо изученные инструменты для работы с предельно большими матрицами, которые полезны для анализа нейросетей .
- Интерпретируемость: Каплан сравнивает текущую работу по пониманию внутренних процессов ИИ с нейробиологией. Разница в том, что в ИИ мы можем измерить активность каждого «нейрона» и «синапса», чего нельзя сделать в человеческом мозге .
⚡ Эффективность и парадокс Джевонса 31:17
Несмотря на дефицит вычислительных мощностей, Каплан настроен оптимистично относительно стоимости технологий:
- Алгоритмический рост: Каждый год эффективность обучения и инференса растет в 3–10 раз благодаря алгоритмическим улучшениям .
- Снижение точности: Индустрия движется в сторону вычислений с низкой точностью (FP4 и даже бинарные представления), чтобы сделать инференс максимально дешевым .
- Парадокс Джевонса: По мнению Каплана, чем доступнее становится интеллект, тем выше будет спрос на него . Люди не будут просто экономить, они захотят использовать более мощные модели для решения всё более сложных задач.