Уэс Рот и экс-директора Google: как самообучение ИИ без участия человека изменит индустрию

В новом выпуске своего канала Уэс Рот (Wes Roth) встретился с бывшими топ-менеджерами и инженерами крупнейших технологических корпораций, чтобы обсудить то, что обычно остается за рамками соглашений о неразглашении (NDA). В дискуссии приняли участие Иордан Тибидо (Jordan Tibido), работавший в Google и Salesforce, и Джо Терновски (Joe Ternowski), бывший директор по инженерии в Google и Facebook. Эксперты разобрали внутреннюю кухню Кремниевой долины: от предупреждений Питера Тиля Сэму Альтману до технического тупика в интерпретируемости нейросетей.

🎙️ От маркетинга к ИИ-революции: путь Уэса Рота 3:29

История Уэса Рота как автора одного из самых популярных ИИ-каналов началась задолго до эпохи больших языковых моделей. В 2013 году он переехал из Калифорнии в Техас, став третьим сотрудником в e-commerce стартапе . За первый год компания масштабировалась с нуля до выручки более 20 млн долларов . Работая под руководством маркетолога, тратившего по 1 млн долларов в месяц на рекламу, Уэс Рот освоил методы сплит-тестирования и глубокой аналитики, которые позже применил к развитию своего YouTube-канала.

Переломный момент наступил в конце 2022 года с выходом ChatGPT. Уэс Рот признается, что поначалу видел в ИИ лишь инструмент для автоматизации клиентской службы в e-commerce . Однако после публикации статьи «Sparks of AGI» (Искры сильного ИИ) от Microsoft, посвященной GPT-4, он осознал масштаб грядущих перемен .

По словам Уэса Рота, секрет успеха его канала заключается в понимании алгоритмов YouTube:

Система не навязывает контент, а лишь показывает обложку и заголовок.
Кликабельность (CTR) — главный фактор выживания автора .
Уэс Рот признается, что постоянно тестирует по три варианта обложек, и зрители неизменно выбирают те, где он делает «странные лица», даже если сам автор хотел бы использовать более серьезные изображения .

🧪 Биология вместо инженерии: как «растёт» ИИ 14:00

Участники дискуссии сошлись во мнении, что современная разработка ИИ всё меньше напоминает классическую инженерию. По мнению Уэса Рота, мы больше не «строим» ИИ, как автомобиль, где каждая деталь подогнана к другой . Процесс скорее напоминает садоводство или выращивание бактерий в чашке Петри: разработчики создают среду, закладывают данные и «надеются, что вырастет что-то полезное» .

Джо Терновски подтверждает этот тезис, указывая на проблему интерпретируемости:

Инженеры могут разобрать модель на части и собрать заново, но всё равно не понимать, как она выдает конкретный результат .
Даже внутри Microsoft старшие инженеры, отвечающие за запуск моделей OpenAI в дата-центрах, не до конца понимают механику их работы .
По словам Дарио Амодеи (CEO Anthropic), прогресс в понимании того, как работают кластеры нейронов, идет слишком медленно и не успевает за скоростью обучения самих моделей .

🎭 Три лагеря Кремниевой долины: Думеры, Отрицатели и Мечтатели 19:36

Иордан Тибидо выделил три основные группы людей, которые сегодня формируют информационную повестку вокруг ИИ :

«Думеры» (Doomers): Сторонники теории ИИ-мироздания и рисков (AI Alignment). По мнению Тибидо, многие из них — очень умные люди, но они делают необоснованный логический скачок от «у нас есть нерешенные технические проблемы» к «мы все умрем через пять лет» . Он также критикует показатель P(doom) (вероятность гибели человечества), считая его взятым с потолка и используемым для блокировки инноваций из-за личных страхов .
«Отрицатели» (Deniers): Те, кто считает, что технология переоценена. Тибидо вспоминает, как вице-президент Salesforce в личных сообщениях называл LLM «переоцененными», но изменил мнение через пару недель после разговора с Марком Бениоффом . К этому лагерю он также отчасти относит Яна Лекуна, который, будучи гениальным ученым, по мнению Тибидо, недооценивает политический и социальный момент «триумфа LLM» .
«Мечтатели» (Dreamers): Сотрудники OpenAI и других лабораторий, обладающие «мессианским рвением». Тибидо считает, что именно эта вера позволила им уйти из Google (где им платили миллионы) в стартапы, когда над идеей AGI еще смеялись . Однако он предостерегает от крайностей: утверждения о том, что ИИ скоро получит коды от ядерных ракет, игнорируют реальность (многие системы запуска до сих пор механические и изолированные) .

💻 RL-революция и конец эпохи человеческих данных 29:03

Ключевой технический тренд, обсуждаемый экспертами — переход от обучения на человеческих текстах к обучению через подкрепление (Reinforcement Learning, RL) и самообучение (self-play).

По словам Уэса Рота, обучение на данных, созданных людьми (Supervised Fine-Tuning), — это фактически «зубрежка» или подражание . Настоящий прорыв происходит тогда, когда ИИ начинает играть сам с собой или решать задачи в изолированной среде. Он приводит в пример AlphaGo: модель, обучавшаяся на играх людей, победила Ли Седоля, но следующая версия (AlphaZero), обучавшаяся только против самой себя, разгромила первую со счетом 100:0 .

Технологический стек будущего, по мнению участников:

RL-compute: Огромные вычислительные мощности, направленные не на предварительное обучение, а на процесс рассуждения во время выполнения задачи (test-time compute) .
DeepSeek R1: Упоминается как пример модели, эффективно использующей RL .
Absolute Reasoner: Исследовательская работа (совместная США и Китай), описывающая обучение кодингу без человеческих данных. Система состоит из двух моделей: «Предлагающий» (Proposer) и «Решатель» (Solver), которые бесконечно усложняют задачи друг другу .

Джо Терновски отмечает удивительный побочный эффект: когда модель тренируют исключительно на написании кода через RL, она внезапно начинает лучше решать математические задачи, хотя их не было в обучающей выборке . Это ставит вопрос о том, не является ли кодинг ключом к «общему рассуждению» (generic reasoning) .

🏢 Корпоративный хайп против реальности: кейс Klarna и Salesforce 35:55

Иордан Тибидо скептически относится к заявлениям корпоративных лидеров о немедленной замене сотрудников ИИ-агентами. Он приводит в пример CEO компании Klarna, который заявлял об отказе от Workday и Salesforce в пользу ИИ-агентов .

Аргументы Тибидо против «мгновенной замены»:

Надежность: Ни один сотрудник не будет рад, если ИИ-агент, который «галлюцинирует в 70% случаев», ошибется в расчете его зарплаты .
Комплаенс: Системы вроде Workday — это не просто базы данных, а инструменты соблюдения законов (например, закон Сарбейнса — Оксли), где ошибки ведут к судебным искам от государства .
Откат назад: Тибидо цитирует свежее обновление от Klarna, где компания признала, что снова нанимает людей и на самом деле не «отказалась» от вендоров, а просто сменила их .

🛡️ Геополитика и «Джингоизм» Кремниевой долины 38:43

В финале дискуссии участники затронули резкую смену настроений в Кремниевой долине: от космополитизма и идей мира к жесткому патриотизму и противостоянию с Китаем.

Уэс Рот отмечает, что такие фигуры, как Дарио Амодеи и руководство DeepMind, всё чаще говорят о необходимости защиты технологий и опасностях со стороны Китая . Иордан Тибидо связывает это с регуляторным давлением: попытки принять законы (как в Калифорнии), требующие сторонней проверки кода перед запуском ИИ, могут замедлить «американское ИИ-чудо» и дать преимущество Китаю .