Джаред Каплан раскрыл секреты предварительного обучения нейросетей в Anthropic

Y Combinator 29,1 тыс. 1 ч 3 мин 18 мин 30.09.2025
Главное

Как небольшая команда инженеров может успешно конкурировать с технологическими гигантами на переднем крае искусственного интеллекта? В этом интервью руководитель отдела предварительного обучения (pre-training) компании Anthropic Джаред Каплан (Jared Kaplan) подробно рассказывает о стратегиях масштабирования, преодолении аппаратных ограничений и внутренней кухне создания передовых языковых моделей. Разговор, опубликованный на канале Y Combinator, раскрывает практическую сторону AI-инженерии: от поиска «проклятых» багов до тонкостей инфраструктурного взаимодействия со стартап-акцентом.

🧩 От благотворительности к ИИ: карьерный путь Джареда Каплана 0:01

Джаред Каплан начинал свой профессиональный путь с неожиданной стороны. До того как глубоко погрузиться в машинное обучение, он проходил стажировку в известной некоммерческой организации GiveWell, специализирующейся на оценке эффективности благотворительных фондов. Именно там он впервые столкнулся с дискуссиями о возможном появлении сильного искусственного интеллекта (AGI) и потенциальных экзистенциальных рисках для человечества. В тот момент эти аргументы не показались ему убедительными, и Джаред выбрал стезю классической экономики, стремясь найти способы прямой помощи людям, находящимся в глубокой бедности.

Однако этот путь по ряду причин не сложился. По воспоминаниям Джареда, альтернатива выглядела следующим образом: либо безопасность ИИ действительно окажется критически важной темой, и тогда он принесет пользу, работая над ней, либо этого не произойдет — и тогда он сможет создавать крутые прикладные ИИ-инструменты, которые помогут бедным слоям населения Земли значительно эффективнее, чем традиционные институты.

Важным фактором отказа от академической карьеры в экономике стала скорость реализации. Для работы над государственной экономической политикой Джареду пришлось бы потратить около шести лет на получение докторской степени (PhD). В сфере ИИ привлекала возможность сразу перейти к практике.

Первым местом работы Джареда Каплана стал стартап Vicarious. Изначально это была лаборатория общего искусственного интеллекта (AGI), но к моменту прихода Джареда компания смещала фокус в сторону коммерческих продуктов, в частности, робототехники. Джаред занимался обучением моделей компьютерного зрения для роботов, что стало его первым полноценным опытом в индустрии. На этой позиции он освоил базовые принципы построения моделей машинного обучения и написания инфраструктурного кода. Дискуссии о безопасности ИИ в Vicarious носили скорее теоретический и философский характер, поскольку существовавшие тогда модели были недостаточно развиты и не представляли реальной угрозы.

🚀 Опыт в OpenAI и рождение Anthropic 2:20

После Vicarious Джаред Каплан перешел в OpenAI, присоединившись к одной из команд безопасности. Там его фокус сместился на кодовые модели. Первым, что он увидел, была тонкая настройка (fine-tuning) модели GPT-3 для написания программного кода. Результаты оказались настолько впечатляющими, что Джаред всерьез задумался об угрозе самосовершенствования ИИ, способного самостоятельно модифицировать собственный код. Он погрузился в проведение оценок (evaluations) и исследований факторов, влияющих на эти способности.

Однако ситуация резко изменилась всего через восемь месяцев работы. Практически все руководители направления безопасности, с которыми и ради которых Джаред приходил в OpenAI, приняли решение покинуть компанию. Это послужило триггером для перехода. Джаред последовал за ними, став частью команды Anthropic практически в момент основания стартапа.

📈 Закон масштабирования и петля коммерческой капитализации 3:15

Центральной теорией, определяющей развитие Anthropic с момента запуска, является концепция законов масштабирования (scaling laws). Суть ее проста: качество работы модели (измеряемое как снижение функции потерь при предсказании следующего слова) растет строго предсказуемо как степенной закон по мере увеличения вычислительной мощности (compute), объема данных и количества параметров.

Джаред Каплан отмечает, что генеральный директор Anthropic Дарио Амодеи (Dario Amodei) и ряд других специалистов предвидели это заранее, хотя для рынка это не было очевидным. Главное следствие законов масштабирования — создание мощной положительной обратной связи для стартапов:

  1. Обучается базовая модель с использованием доступных мощностей.
  2. На ее основе создается полезный и востребованный коммерческий продукт.
  3. Продукт продается клиентам, принося выручку.
  4. Полученные деньги инвестируются в покупку еще большего объема вычислительных мощностей для обучения следующей, более умной модели.

Эта коммерческая петля успешно прокручивается индустрией последние 5 лет.

С технической точки зрения pre-training базируется на задаче предсказания следующего токена (next-word prediction). Для максимизации вкладываемых вычислений требуется колоссальный объем неразмеченных данных, и интернет является идеальным источником. Модель получает плотный сигнал обучения из самого текста: беря первое слово, она предсказывает второе, затем по двум словам предсказывает третье и так далее. Каждое слово становится новым обучающим примером.

В период с 2017 по 2021 год велись активные споры между сторонниками авторегрессионного моделирования (серия GPT) и маскированного языкового моделирования (модели BERT и BART). Джаред признает, что победа авторегрессионного подхода во многом эмпирическая. Однако у него есть важное фундаментальное преимущество: из такой модели можно напрямую и последовательно генерировать текст (семплировать), что идеально подходит для создания готовых продуктов. Если довести функцию потерь языковой модели до совершенства, она сможет писать тексты на уровне человека: например, получив на вход название, выдать полноценную научную статью.

Хотя некоторые исследователи практиковали pre-training с последующей тонкой настройкой под 100 узкоспециализированных задач, Джаред Каплан подчеркивает фундаментальную интуицию: ключевое значение имеют именно вычисления. Если влить достаточно compute в любую из этих архитектур, результат будет хорошим. Архитектурные детали блекнут на фоне чистого масштабирования вычислительной мощности.

📐 Пропорциональное масштабирование и поиск гиперпараметров 7:15

При планировании обучения большой и дорогой модели инженеры сталкиваются с огромным пространством из сотен гиперпараметров: количество слоев, ширина сети, параметры внимания и т.д.. Задача состоит в том, чтобы сделать их оптимальными.

Опыт Anthropic показывает, что небольшие изменения гиперпараметров дают локальные выигрыши, но при долгосрочном увеличении compute модель все равно стабильно улучшается. Самая сложная проблема — вовремя заметить скрытую ошибку. График снижения потерь подчиняется формуле «степенной закон плюс константа». Со временем график начинает отклоняться от идеальной кривой степенного закона. В этот момент инженеру критически важно понять: достигнут ли фундаментальный лимит масштабирования, или же нужно было просто слегка скорректировать шаг обучения (learning rate). Не зная counterfactual (альтернативного сценария), определить это задним числом невозможно, если модель не обучалась достаточно долго.

Для минимизации рисков Anthropic использует методологию пропорционального уменьшения масштаба (scaling down proportionally). Инженеры создают математическую теорию распределения вычислительного бюджета (flops):

Затем эта гипотеза многократно тестируется на уменьшенных моделях перед запуском масштабного процесса.

🛠️ Инфраструктурные хаки стартапа: как обойти Facebook на чужом поле 9:23

В самом начале пути Anthropic была крошечной и гибкой командой из 10–12 человек. Несмотря на хорошую капитализацию, по меркам индустрии они обладали скромными ресурсами. Джаред Каплан вспоминает удивительное ощущение пребывания на технологическом фронтире: казалось, что во всем мире этой задачей всерьез занимается не более 30 человек.

Публичные оценки стоимости обучения GPT-3 составляли около $5 млн. Для крупной компании это небольшие деньги, поэтому молодой стартап мог позволить себе сопоставимый объем вычислений. Anthropic использовала облачного провайдера, но работа на технологическом пределе требовала понимания физического расположения серверов.

Один из инженеров Anthropic разработал и запустил кластерный алгоритм для определения того, в каких конкретно комнатах дата-центра находятся выделенные им чипы. Команда подозревала, что сетевая задержка вызвана физическим удалением стоек друг от друга. Алгоритм позволил реверс-инжинирить топологию сети и подтвердил, что чипы были разделены на два физических кластера с плохой связью между ними. Поскольку стартап имел меньше денег, чем ИТ-гиганты, выживание зависело от максимальной эффективности использования железа.

Главным рычагом эффективности стала разработка собственного распределенного фреймворка. Существуют различные подходы к распределению вычислений по чипам:

В то время готовых эффективных open-source решений не существовало. Когда команда начинала писать параллелизм по данным, Джаред удивился, что им приходится самостоятельно реализовывать операцию All-Reduce. Они сознательно отказались от использования стандартных пакетов PyTorch, так как планировали выйти на масштабы, превышающие те, с которыми работала команда FAIR (Facebook AI Research). Опираться на чужие библиотеки, которые пришлось бы непрерывно модифицировать под новые задачи масштабирования, было стратегической ошибкой.

Это решение выглядело контринтуитивно, ведь FAIR и DeepMind обладали лучшими кадрами и академической репутацией. Однако академическая культура FAIR, где каждый PhD-исследователь боролся за свой кусок compute для проверки личных идей, мешала крупным совместным проектам. Создание большой языковой модели требует жесткой координации десятков людей вокруг сложной инфраструктуры, которая не превратится в красивую научную публикацию. Подобный инженерный труд в чисто академических средах не ценился, что и дало Anthropic фору.

🏎️ Профайлинг, математическое моделирование и парное программирование 14:26

При написании кода команда опускалась на уровень абстракции чуть ниже стандартного PyTorch, работая с операциями матричного умножения torch.matmul. Особую сложность представляла оптимизация механизма внимания (attention), который тяжело сделать эффективным на GPU.

Методология оптимизации вычислений в Anthropic включала три шага:

  1. Математическое моделирование на бумаге. Инженеры рассчитывали целевой коэффициент использования мощностей (MFU — Model Flops Utilization). Главные причины падения MFU — ограничения пропускной способности памяти HBM (High Bandwidth Memory) и задержки при выгрузке данных с хоста на CPU. Зная базовые шесть чисел архитектуры, можно точно смоделировать ограничения.
  2. Эмпирический профайлинг. Реализованный код всегда оказывался неэффективным при первом запуске. Инженеры запускали профайлеры, сопоставляли реальное время выполнения каждой операции с теоретической моделью и дорабатывали код до их полного совпадения.
  3. Взлом traces. Если для одного GPU стандартный PyTorch профайлер работал отлично, то для тысяч GPU готовых инструментов не было. Инженерам Anthropic приходилось буквально хакать профайлер, вручную собирая и склеивая traces (следы вычислений) со множества узлов.

Джаред признается, что до прихода в Anthropic никогда не пользовался отладчиком, предпочитая обычный вывод через print. Однако при работе с тяжелым кодом, который запускается очень долго, использование интерактивных дебаггеров (например, PDB) кардинально ускорило процесс отладки.

Основным каналом обучения внутри компании стало парное программирование (pair programming). В первые дни Джаред просто читал всю базу Slack и внутреннюю документацию, а затем часами сидел за одним экраном с опытными коллегами, такими как Том Браун (Tom Brown) и его менеджер Сэм Маклиш (Sam McCandlish). Парное программирование позволяет перенять не просто конечный результат в виде pull-request, а сам живой процесс поиска неисправностей и работы с профайлером, который невозможно изучить по сухим отчетам.

👥 Эволюция команды: баланс между генералистами и специалистами 18:35

В первые полгода Джаред Каплан лично читал каждый pull request в репозитории проекта, что обеспечивало идеальное понимание всех систем. Однако по мере роста масштабов pre-training команды неизбежно происходит специализация. Появляются глубокие эксперты, которые досконально настраивают только алгоритмы внимания или стратегии параллелизма.

Для инженерного менеджера ИИ-стартапа это создает классическую дилемму. С одной стороны, специализация повышает эффективность. С другой — повышается риск возникновения единой точки отказа (single point of failure). Кроме того, нарушается баланс психологических профилей:

Джаред подчеркивает, что на стыке архитектуры и эффективности часто кроются самые простые решения. Генералист может заметить, что легкое изменение математики слоя на верхнем уровне полностью аннулирует необходимость в сложной, многомесячной оптимизации низкоуровневой CUDA-операции.

💥 Когда компьютер врет: аппаратный ад больших кластеров 22:00

При переходе к кластерам из тысяч GPU (которые на ранних этапах занимали целую комнату, а сегодня представляют собой огромные кампусы) инфраструктура превращается в единую зону отказа. Если выходит из строя один чип — падает весь распределенный процесс обучения. Архитектура ИИ-моделей не позволяет просто «выкинуть» условный седьмой слой из десяти, если на соответствующей стойке сгорела плата.

Самым тяжелым ментальным сдвигом для классического программиста становится потеря доверия к аппаратному обеспечению. В университетах учат, что если код не работает — виноват программист. В pre-training на переднем крае все иначе. Джаред вспоминает случай, когда он долго не мог локализовать ошибку, пока его менеджер не произнес: «Скорее всего, компьютер врет». И действительно, чип GPU был физически поврежден и выдавал неверные математические результаты. Инженерам приходится постоянно сталкиваться с тем, что чипы работают медленнее положенного, ломаются блоки питания или перегорает отдельный конденсатор, обслуживающий целую стойку, из-за резкого одновременного скачка энергопотребления при запуске вычислений.

Anthropic активно взаимодействует с облачными провайдерами через выделенные каналы в Slack. Провайдеры мотивированы помогать, так как заинтересованы в будущих продажах чипов, а для стартапа на кону стоит выживание бизнеса, ведь мощности выкупаются на долгие месяцы вперед.

Эффективная стратегия коммуникации с поддержкой фабрик compute, выработанная Anthropic, заключается в создании изолированных микро-воспроизводителей ошибок (small scale reproducers). При возникновении критической ошибки сегментации (segmentation fault) на гигантском кластере бесполезно просить провайдера починить ее. Инженеры стартапа должны локализовать сбой, вытащить его из основной кодовой базы и упаковать в один компактный скрипт, воспроизводящий баг на одном чипе, чтобы отправить его вендору для исправления.

🧠 Pre-training против Post-training: битва за вычислительный бюджет 28:10

Исторически термин «предварительное обучение» подразумевал лишь подготовку к основной работе, но затем фокус сместился: pre-training стал поглощать львиную долю бюджетов. Сейчас индустрия переживает новый сдвиг: компании активно инвестируют в post-training (обучение с подкреплением — RL, тонкая настройка). Появился новый класс законов масштабирования — рост качества моделей пропорционально объему вычислений, вливаемых в RL и рассуждения (reasoning).

Джаред считает вопрос оптимального баланса бюджетов между pre-training и RL открытым и находящимся на ранней эмпирической стадии. На организационном уровне это часто порождает внутреннее соперничество и трения между командами в ИИ-лабораториях, поскольку научные вопросы переплетаются с амбициями сотрудников и влиянием их отделов. В Anthropic, по утверждению Джареда, этого удается избегать благодаря жесткой нацеленности на создание единой финальной модели.

🌐 Миф об исчерпании интернета и реальность данных 30:57

В публичном пространстве активно транслируется нарратив о том, что у разработчиков ИИ «закончились данные для обучения» и масштабирование вот-воз упрется в тупик. Джаред Каплан относится к таким заявлениям скептически, отмечая, что авторы подобных прогнозов часто не знают реальных объемов данных, используемых ведущими лабораториями.

Объем интернета технически бесконечен — всегда можно найти страницы с бесконечной автоматической генерацией текста по мере прокрутки. Сложность заключается в определении объема полезного интернета, и этого не знает никто. Популярный среди программистов подход — использовать алгоритм PageRank от Google, отсекая страницы ниже определенного порога цитируемости. Однако Джаред считает, что метрика качества для человека не совпадает с метрикой для ИИ. Классический PageRank оценивает связи между ссылками, но на заброшенной, никем не связанной странице в «хвосте» распределения (long tail) может лежать уникальный и точный массив знаний, необходимый для ответа на последние 10% самых сложных пользовательских запросов.

Отдельный вызов — синтетические данные. Здесь Джаред разделяет два сценария:

  1. Дистилляция моделей. Проверенный метод, когда сильная модель (например, старшие версии Claude или Qwen) генерирует датасет, на котором обучается меньшая модель, перенимая ее логику.
  2. Самосовершенствование (Self-improvement). Идея использовать текущую модель для генерации данных с целью обучения версии, превосходящей исходную.

Фундаментальное препятствие для самосовершенствования заключается в том, что модель обучается собственному распределению вероятностей. Если в ее логике заложена ошибка — например, она считает, что $5 + 5 = 11$, — то при массовой генерации текста это утверждение зацементируется, и новая модель лишь прочнее усвоит ложь вместо поиска истины. Исследовать этот феномен крайне тяжело, так как его невозможно полноценно смоделировать на малых архитектурах.

Что касается случайного загрязнения интернета текстами ИИ (когда они составляют 1%, 5% или 10% от общего、《объема), Джаред не считает это гарантированной катастрофой. Интернет работает как естественный фильтр: люди замечают откровенный бред вроде $5 + 5 = 11$ и не публикуют его у себя, апсемплируя (отбирая) качественные ответы. Тем не менее, существует реальная угроза намеренных атак, когда злоумышленники пытаются протащить сквозь фильтры Anthropic массивы скрытого, бесполезного или деструктивного контента для разрушения логики будущих моделей.

🎯 Эволюция валидации: почему тесты на программирование больше не работают 36:51

Единственная главная метрика в pre-training — это функция потерь (loss), и Джаред Каплан подчеркивает ее удивительную практическую эффективность, несмотря на кажущуюся простоту. Хорошая система оценки (eval) должна обладать тремя свойствами: измерять то, что действительно важно, быть быстрой в запуске и иметь низкий уровень шума (узкий доверительный интервал), чтобы даже минимальные изменения направления обучения давали статистически значимый результат.

Индустрия ИИ страдает от эффекта быстрого насыщения тестов. Раньше Джаред считал, что если нейросеть научится проходить собеседования по кодированию в технологические компании, это и будет моментом создания AGI. Реальность оказалась иной: модели отлично щелкают эти задачи, но остаются узкими и пасуют перед реальной работой.

Разработка качественных тестов для сложных доменов — огромная проблема. Например, медицинский ИИ может легко набрать 100% на теоретическом экзамене для врачей. Но реальная работа врача — это длинный, хаотичный диалог с пациентом, где нужно уметь отделять информационный шум от симптомов и извлекать скрытые сигналы. Написать автоматический eval для такой сессии крайне трудно.

В качестве решения Джаред предлагает стартапам использовать «закон потерь» (loss framework): собрать 100 качественных реальных транскриптов интервью отличных врачей с пациентами и оценивать способность ИИ предсказывать следующие токены в этих эталонных сессиях. Если модель минимизирует loss на таких данных, она начнет действовать в логике лучших специалистов. Создание качественных специализированных evals — это отличная ниша для стартапов, способная напрямую влиять на то, под какие метрики крупные лаборатории (включая Anthropic) будут оптимизировать свои модели, ведь у самих лабораторий нет в этом конкурентного преимущества.

🎡 Настройка рулевого колеса: философия и robustness Конституционного ИИ 41:03

Под созданием AGI Джаред Каплан понимает систему, способную выполнять практически любые задачи человеческого уровня. Массовая поп-культура и научная фантастика недооценивают масштаб этого сдвига, показывая одного человекоподобного робота. В реальности цифровую модель можно мгновенно скопировать миллиард раз. Это означает, что каждый человек получит в распоряжение условную персональную компанию из 1 миллиарда сотрудников, которые работают со скоростью лучших умов.

Проблема выравнивания (alignment) — это попытка заставить модель со сверхчеловеческим интеллектом разделять истинные цели человечества. Задача предсказания следующего токена сама по себе чужда человеческим ценностям.

В краткосрочной перспективе выравнивание сводится к управлению «личностью» модели, чтобы она не вела себя как среднестатистический (часто токсичный) пользователь интернета. Для этого Anthropic разработала технологию Конституционного ИИ (Constitutional AI), когда модели задается свод правил и принципов поведения. Джаред поясняет, что эти правила работают на двух уровнях:

На фундаментальный философский вопрос «чьи ценности должен воплощать ИИ?» у Джареда есть прагматичный ответ. Он использует метафору рулевого колеса: «Если у вас в машине нет руля, вам нужно сначала его установить, а уже потом спорить, кто сядет за руль и куда вы поедете». Создание самой технологии контроля — первоочередная задача. В дальнейшем мощные системы должны находиться под демократическим контролем общества, обладать гибкостью для адаптации к ценностям разных культур и иметь встроенный предохранитель — способность отступить назад и запросить у человека совет в неоднозначной ситуации, вместо того чтобы перехватывать контроль.

С точки зрения управления процессами, Джаред сформулировал жесткое правило для pre-training менеджеров: все сложные поведенческие интервенции и настройки характера должны производиться исключительно на этапе post-training. Итерационный цикл в post-training занимает часы или дни, позволяя быстро исправлять дефекты (например, если Claude слишком часто соглашается с пользователем). Внедрение подобных экспериментов в pre-training заморозит процесс: инженерам придется ждать несколько месяцев ради проверки одной гипотезы, а малые тестовые модели на этапе pre-training еще слишком глупы, чтобы вообще демонстрировать сложную структуру личности.

🐛 Проклятые баги и призрак «тихой смерти» модели 47:27

Главный страх руководителя pre-training направления — это не нехватка чипов, а скрытые, труднонаходимые ошибки в коде (silent bugs), способные пустить под откос многомесячную работу всей компании. В обычном программировании баг приводит к падению программы. В машинном обучении модель может успешно продолжать учиться, обновлять веса и снижать loss, но делать это неоптимально.

Джаред приводит пример классического ИИ-бага, с которым сталкиваются многие в начале карьеры: если в 10-слойной сети седьмой слой по ошибке подключить напрямую к девятому, минуя восьмой, вычисления не прервутся. Модель выдаст валидный результат, но ее итоговая эффективность будет безвозвратно испорчена. На огромных масштабах этот кошмар разрастается: достаточно случайно перепутать и привести переменную к неверному типу точности (precision casting) глубоко внутри кастомного CUDA-ядра. Модель может стабильно обучаться три недели, а на двадцать четвертый день неожиданно «взорваться» (выдать NaN или расхождение градиентов). Найти одну неверную строчку среди десятков тысяч строк кода — титанический труд.

Иногда модель не взрывается, а просто необъяснимо замедляет скорость выполнения операций. Инженер Anthropic Нельсон Элхаж (Nelson Elhage) посвятил целый разбор в своем блоге одному такому «проклятому» багу раннего периода компании. Джаред вспоминает, что столкнулся с ним в самом начале и, осознав всю глубину проблемы, с облегчением передал ее коллеге, поскольку решение требовало экстремального уровня компетенций.

Индустрии критически не хватает инженеров редкого профиля, способных «владеть всем стеком» вычислений. На рынке много PhD-исследователей, умеющих писать математические формулы на бумаге, но не понимающих, как их реализовать. Истинная ценность для pre-training стартапа — это системные инженеры. Они должны понимать динамику обучения ИИ на верхнем уровне и одновременно обладать способностью спуститься на уровень сетевых пакетов, протоколов TCP, топологии межпроцессного взаимодействия и физического движения байтов между машинами при вызове сетевых команд.

🏎️ Совместное проектирование с инференсом и тактика для фаундеров 53:57

В условиях дефицита вычислительных мощностей команда pre-training обязана работать в теснейшей связке с командой инференса (вывода и эксплуатации моделей в продакшене). Pre-training команда фактически формирует рамки проблем, которые инференс будет вынужден героически решать.

Джаред приводит пример деструктивного управленческого решения: обучить гигантскую модель на слишком малом количестве токенов. Функция потерь упадет, отчет для руководства будет красивым. Но когда эта модель попадет в продакшен, команда инференса окажется «в заложниках»: им придется тратить колоссальные и неэффективные серверные ресурсы на обслуживание огромного количества весов при обработке каждого пользовательского запроса. Модели должны проектироваться так, чтобы они оставались «умными, но дешевыми» в эксплуатации. Именно из-за жестких аппаратных лимитов краткосрочного планирования пользователи Claude регулярно сталкиваются с жесткими рейтрит-лимитами (rate limits) на сайте.

Для фаундеров стартапов, оценивающих ландшафт в эпоху доминирования Anthropic и OpenAI, Джаред дает четкие тактические рекомендации:

В качестве финального совета студентам, планирующим карьеру на ближайшие 10 лет, Джаред Каплан рекомендует полностью сместить фокус с изучения чистой теории, классической литературы по машинному обучению и опорных векторов (SVM) в сторону суровых прикладных навыков системной инженерии и архитектурного развертывания. Будущее принадлежит тем, кто умеет заставлять кремний работать на пределе физических возможностей.

💬 Цитаты

«Вы должны картировать ситуацию так: когда вы получаете AGI, каждый человек сможет развернуть компанию из 1 миллиарда сотрудников, таких же умных, как он сам.»

Джаред Каплан 41:41

«Если у вас в машине нет рулевого колеса, вам сначала нужно его поставить, а уже потом решать, кто будет вести и куда ехать.»

Джаред Каплан 43:50
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Pre-training
Этап предварительного обучения ИИ-модели на огромных массивах неразмеченных текстовых данных для освоения языка и базовых знаний.
Scaling laws
Эмпирические законы, связывающие снижение ошибки предсказания модели со степенным ростом вычислений, параметров и данных.
MFU (Model Flops Utilization)
Метрика эффективности использования вычислительной мощности графических процессоров во время обучения модели.
Constitutional AI
Метод обучения ИИ, разработанный Anthropic, при котором модель выравнивается на основе заданного набора текстовых правил и принципов.
Post-training
Этап дообучения модели после pre-training, включающий настройку безопасности, стиля общения и логических способностей (RL, SFT).
📊 Цифры
🗓 Хронология
  1. 2017-2021 Период активной конкуренции между архитектурами BERT/BART и авторегрессионными моделями типа GPT.
  2. 2020 Публикация знаковых моделей уровня GPT-3 стоимостью около 5 миллионов долларов.
  3. Последние 5 лет Непрерывное прокручивание коммерческого цикла: выручка от продуктов конвертируется в покупку compute для обучения более мощных моделей.
⚖️ Другая сторона
Искусственный интеллект Джаред Каплан Anthropic Scaling laws PyTorch OpenAI