В новом выпуске своего канала Уэс Рот побеседовал с приглашенным экспертом Доктором Ноу-ит-олом (Джоном) о тектонических сдвигах в индустрии искусственного интеллекта и автономных систем. Главной темой обсуждения стал личный опыт участия эксперта в закрытом тест-драйве роботакси от Tesla в Остине и его прямое сравнение с главным конкурентом — Waymo. Также собеседники подробно разобрали революционный медицинский релиз Alpha Genome от Google DeepMind и перспективы рекурсивного самообучения нейросетей.
🚕 Тест-драйв в Остине: первые впечатления от Robotaxi от Tesla 0:00
Доктор Ноу-ит-ол поделился личной историей о том, как он стал одним из первых людей, протестировавших новое автономное Robotaxi от Tesla в реальных условиях. Приглашение пришло неожиданно: в пятницу многие блогеры уже получили инвайты, а Джон, находившийся в Мичигане из-за операции жены на колене (пластика передней крестообразной связки), смирился с тем, что пропустит мероприятие. Однако в субботу в 16:30 Tesla прислала ему официальное приглашение. Джону пришлось экстренно бронировать билеты и организовывать возвращение супруги домой.
Прибыв в Техас в воскресенье в полдень, эксперт столкнулся с задержкой старта — мероприятие перенесли на 14:00. В местном ресторане он встретил другого контент-креатора, Герберта (канал Brighter with Herbert), который вел прямую трансляцию. В какой-то момент телефоны всех присутствующих синхронно зазвенели, оповещая о возможности загрузить приложение и заказать машину, после чего блогеры буквально выбежали на улицу, стремясь первыми занять сиденье роботакси.
За два дня Джон успел совершить 10 поездок на новом беспилотнике, суммарно проведя в движении около 90 минут. Тестирование проходило в строго ограниченной геозоне (геофенс) — прямоугольном районе к югу от реки в Остине. По словам эксперта, опыт поездки казался абсолютно нормальным и безопасным. В кресле переднего пассажира находился оператор безопасности (safety monitor), у которого на дверной ручке была специальная кнопка экстренного отключения системы, однако за все 90 минут тест-драйва ни один из водителей ни разу к ней не прикоснулся.
⚔️ Битва концепций: почему Tesla победит Waymo за счет масштаба 3:06
Сразу после окончания тестов Tesla Доктор Ноу-ит-ол пересел в беспилотник Waymo, совершив уникальную последовательную поездку «спина к спине» на двух конкурирующих системах. Отвечая на вопрос Уэса Рота о том, кто выйдет победителем из этой технологической гонки, Джон однозначно сделал ставку на Tesla, аргументируя это будущим преимуществом в масштабировании производства.
По мнению эксперта, ключевой уязвимостью Waymo является избыточность сенсоров. Недавно опубликованный блог-пост Waymo признает необходимость минимизации датчиков, однако текущие машины компании стоимостью около $150 000 буквально усыпаны дорогостоящим оборудованием: лидарами, радарами, сонарами и камерами. Джон сравнил внешний вид Waymo с автомобилем, «покрытым бородавками». Помимо высокой стоимости, обилие разнородных сенсоров создает серьезные технические конфликты при обработке данных.
Tesla прошла этот путь и в 2021 году полностью отказалась от ультразвуковых датчиков и радаров, перейдя на концепцию Tesla Vision — управление исключительно на основе данных с 8 камер. Как отмечает Доктор Ноу-ит-ол, критики до сих пор называют Илона Маска безумцем, однако базовая логика Tesla проста: человеку для управления машиной достаточно двух «камер» (глаз) и нейросети (мозга). Собеседники сошлись во мнении, что аргумент о слепоте камер в условиях ливней или метелей несостоятелен: в такую погоду видимость падает настолько, что и обычный человек не способен вести машину, поэтому беспилотнику достаточно переждать непогоду 15 минут.
Основную проблему масштабирования Waymo Джон видит в необходимости создания сверхдетализированных карт местности сантиметровой точности, которые нужно постоянно обновлять. Машина Waymo движется словно по рельсам американских горок: лидар четко привязывает ее к координатам, но при малейшем изменении окружения или выходе за пределы карты система пасует. В противовес этому Джон привел пример из личного опыта владения Tesla Model Y (которая использует ту же архитектуру, что и Robotaxi): он успешно включал систему Full Self-Driving (FSD) на грунтовых и гравийных дорогах и даже заставил машину самостоятельно пересечь открытое поле, чтобы выехать на трассу.
С точки зрения экономики преимущество также на стороне Tesla:
- Стоимость серийного электромобиля составляет всего $40 000 – $45 000 против $150 000 у конкурента.
- Объемы производства Tesla достигают примерно 5000 автомобилей семейства Model Y в неделю.
- В то же время Waymo выпускает порядка 500–1000 специализированных машин в год, что делает массовую экспансию маловероятной.
📈 Марш «девяток» безопасности и кабина под надзором ИИ 6:54
Уэс Рот высказал предположение, что в далеком будущем автомобили смогут использовать «сверхчеловеческие» сенсоры: датчики магнитного севера, инфракрасные камеры и микрофоны, способные улавливать посторонние шумы (например, звук отвалившейся детали у соседней машины) для повышения безопасности на триллионную долю процента. Доктор Ноу-ит-ол согласился, что индустрия беспилотников постоянно участвует в так называемом «марше девяток» (March of nines), пытаясь приблизиться к идеалу, хотя 100% безопасность недостижима из-за непредсказуемых факторов вроде падения метеорита. Он также подтвердил, что современные Tesla уже оснащены микрофонами и вскоре смогут полноценно реагировать на сирены экстренных служб.
Эксперт наглядно описал экспоненциальную сложность обучения систем автоматического вождения:
- Достичь 90% эффективности водителя крайне легко — с этой задачей справился его сын в седьмом классе, запрограммировав робота из конструктора Lego Mindstorms.
- Добавление следующей девятки (99%) требует колоссальных усилий.
- Каждый последующий шаг (99.9%, затем 99.99%) увеличивает сложность задачи в 10 раз, требуя такого же объема работы и вычислительной мощности, как и весь путь от 9% до 99%.
Обсуждая контроль над водителем, Джон признался, что одобряет использование салонной камеры Tesla для отслеживания взгляда. Камера фиксирует, когда водитель отвлекается на текстовые сообщения во время движения: система разрешает это делать на красный сигнал светофора, но мгновенно требует вернуть внимание на дорогу, как только загорается зеленый. По мнению Уэса Рота, вопросы приватности сглаживаются тем, что видеоданные анализируются исключительно локальными алгоритмами машинного зрения, а не просматриваются людьми, что исключает человеческий фактор.
🎮 Виртуальные миры Unreal Engine и революция обучения по видео 10:34
Важным технологическим преимуществом Tesla Джон назвал методику сбора данных. На конференции 2022 года инженеры компании подробно описали, как они используют игровой движок Unreal Engine для симуляций. Когда реальный автомобиль Tesla фиксирует сложную дорожную ситуацию (например, необходимость протиснуться между грузовиками UPS и FedEx в узком переулке, где одновременно идет пешеход с собакой), эти данные отправляются на сервера компании.
Внутри Unreal Engine воссоздаются миллионы вариаций этого конкретного «краевого случая» (edge case). Графика движка искусственно занижается до качества реальных автомобильных камер, поэтому бортовой компьютер воспринимает симуляцию как подлинный поток данных, эффективно обучаясь на миллионах синтетических примеров.
Проблема координатной трансформации и YouTube
По словам Доктора Ноу-ит-ола, следующим фундаментальным прорывом в робототехнике станет обучение моделей на основе сторонних видео из интернета (YouTube, TikTok). Сейчас для обучения роботов человеку приходится надевать громоздкий костюм с датчиками и шлемом для точной телеоперации от первого лица, что сильно ограничивает масштабируемость данных.
Человек способен легко совершать «координатную трансформацию» — глядя на то, как кто-то другой взбивает яйцо на YouTube, мы подсознательно проецируем эти движения на свое тело. Для искусственных нейросетей это невероятно сложная задача, но индустрия вплотную приблизилась к ее решению. Если роботы научатся полноценно обучаться по видео от третьего лица, для них откроется весь массив данных интернета, что вызовет взрывной рост их возможностей, аналогичный переходу языковых моделей на триллионы токенов из открытой сети.
Виртуальные полигоны и Isaac Gym
В настоящее время большая часть обучения роботов происходит в симуляциях. Джон упомянул платформу Isaac Gym от компании Nvidia — продвинутый физический симулятор, где можно запустить тысячи цифровых копий роботов одновременно, заставляя их выполнять задачи посредством обучения с подкреплением (reinforcement learning) на скорости, в тысячу раз превышающей реальное время. Телеоперация в VR-очках сегодня применяется лишь для финальной калибровки и точечной настройки движений.
📦 Трехуровневый экономический эффект и Optimus на пассажирском сиденье 16:01
Собеседники детально спрогнозировали, как внедрение полноценного автопилота изменит повседневную экономику. Джон выделил три последовательных уровня последствий, которые наступят, как только регуляторы разрешат поездки без контроля со стороны человека:
- Уровень 1: Возврат личного времени. При средней продолжительности поездки до работы в 20 минут, человек суммарно возвращает себе 40 минут в день. Это время можно потратить на сон, просмотр видео или работу с электронной почтой.
- Уровень 2: Монетизация личного автопарка. Владельцы частных автомобилей Tesla смогут сдавать их в аренду в общую автономную сеть роботакси на то время, пока они находятся на работе или спят. Это позволит генерировать пассивный доход как для владельца, так и для самой компании. Масштабирование произойдет мгновенно за счет миллионов уже купленных Tesla по всему миру.
- Уровень 3: Интеграция гуманоидных роботов Optimus. На этом этапе в салон беспилотника (например, на заднее сиденье) помещается робот-гуманоид. Машина автономно подъезжает к дому клиента, робот Optimus выходит из салона, берет посылку из багажника и доносит ее до двери, выполняя функции курьера для служб доставки вроде UPS или FedEx.
Уэс Рот в шутку описал курьезный сценарий будущего: если кто-то в порыве дорожной ярости решит подрезать или ударить Tesla, из машины выйдут три андроида Optimus, а с крыши взлетит разведывательный дрон, что мгновенно заставит агрессора отступить. Джон поддержал шутку, отметив, что роботы-гуманоиды также смогут выполнять функции личных швейцаров, открывая двери владельцам перед походами за продуктами.
🛠️ Эра «стартап-рычага» и демократизация разработки через ИИ 20:13
Обсуждая открытое программное обеспечение (open-source) в робототехнике, Доктор Ноу-ит-ол выделил проект Aloha от Стэнфордского университета как один из самых перспективных инструментов, обеспечивающих доступность технологий для исследователей. Уэс Рот привел в пример блогера Sentex, который приобрел четвероногого робота Unitree в образовательной версии (Edu) и смог успешно управлять его сложной кодовой базой на C++ с помощью модели OpenAI Codex, переводя свои команды с более простого языка Python.
Этот пример подвел собеседников к концепции «стартап-рычага» (startup leverage). Джон поделился опытом руководства своей небольшой IT-компанией automatic.io, созданной в 2020 году на базе университетского проекта. В те годы команда использовала генеративно-состязательные сети (GAN) и сталкивалась с жесткой нехваткой ресурсов, тратя месяцы на получение грантов и поиск разработчиков.
По словам эксперта, в 2025 году ситуация кардинально изменилась: благодаря генеративному ИИ его команда способна создать рабочий MVP (минимально жизнеспособный продукт) всего за пару месяцев силами пары разработчиков. Инструменты автодополнения кода и ИИ-ассистенты (такие как Claude, OpenAI, Cursor, Windsurf, Replit) повышают общую производительность труда минимум в 10 раз. Джон с иронией вспомнил собственное видео лета 2022 года с громким названием «ИИ мертв», где он предрекал наступление новой «зимы искусственного интеллекта» — ровно за три месяца до релиза Chat GPT в ноябре, доказавшего обратное. Уэс Рот добавил, что текущее плато базовых моделей является ложным: индустрия просто перешла от вертикального роста (глубинного усложнения моделей) к горизонтальному (массовому внедрению технологий в медицину, робототехнику и повседневный бизнес).
🧬 Alpha Genome: новый генетический прорыв Google DeepMind 25:52
Собеседники подробно обсудили экстренную новость дня — официальный релиз модели Alpha Genome от лаборатории Google DeepMind под руководством Демиса Хассабиса, ранее получившего Нобелевскую премию по химии за создание AlphaFold. Alpha Genome представляет собой передовую ИИ-систему, способную обрабатывать колоссальные массивы генетических данных — до 1 миллиона пар оснований ДНК одновременно. Система способна с высокой точностью локализовать редкие генетические заболевания, указывая ученым конкретные мутировавшие пары оснований, вызвавшие патологию.
Доктор Ноу-ит-ол выделил уникальную архитектурную особенность новой модели:
- Ранее генетикам приходилось выбирать между грубым разрешением (низкодетализированный снимок всей цепочки ДНК) и точечным изучением микроскопических участков в высоком разрешении.
- Alpha Genome успешно объединяет оба подхода, сканируя длинные цепочки ДНК с максимальной детализацией.
- Модель использует комбинацию сверточных нейросетей (CNN), классических для задач распознавания образов со времен AlexNet (2012 год), и механизмов трансформеров (Transformers).
Сверточные сети используются в качестве первичного фильтра для поиска потенциально опасных мутаций. Затем трансформеры, задействуя механизмы внимания (attention), анализируют взаимосвязи между генами, находящимися на огромном расстоянии друг от друга (более 100 000 пар оснований). Ранее выявить такие удаленные корреляции было технически невозможно. Уэс Рот подчеркнул, что модель не просто предсказывает следующую пару оснований, а способна прогнозировать влияние мутации на фенотип — то есть на то, как генетический сбой реально проявится в организме.
Дополнительным триумфом модели Джон назвал способность анализировать некодирующие участки ДНК, которые составляют более 95% генома и долгое время ошибочно именовались «мусорной ДНК». Как выяснилось, эти участки работают по принципу детских книг-квестов «Выбери себе приключение»: они содержат сложные инструкции, определяющие, как и когда именно должна активироваться экспрессия тех или иных белков (например, для создания клеток кожи). Alpha Genome выступает мощным диагностическим инструментом, который позволит исследователям применять технологию CRISPR для точечного исправления дефектов.
🧪 Медицинская экосистема DeepMind и уроки забытой науки 31:19
Уэс Рот отметил, что Google DeepMind планомерно выстраивает комплексную систему для радикального продления человеческой жизни и улучшения здоровья. В нее входят алгоритм AlphaFold (прогнозирование трехмерной структуры белков), AlphaRodeo (проектирование кастомных белков с заданными свойствами) и биотехнологический спин-офф Isomorphic Labs, занимающийся компьютерным моделированием лекарств. В подкасте фонда Sequoia Capital представители Isomorphic Labs заявляли, что прежние методы создания лекарств во многом напоминали «тыканье пальцем в небо», тогда как симуляции ИИ позволяют заранее просчитать все сценарии взаимодействия молекул до начала физических испытаний.
По мнению собеседников, Google полностью вернул себе статус лидера индустрии ИИ, преодолев кризис позиционирования годичной давности, когда компанию несправедливо списывали со счетов. Огромным преимуществом Google является их собственное «железо» — процессоры TPU, выступающие единственным реальным конкурентом чипам Nvidia с архитектурой CUDA. Кроме того, Джон напомнил, что фундаментальная архитектура трансформеров была создана именно исследователями Google в культовой научной работе Attention Is All You Need (2017 год).
Размышляя о потенциале ИИ в поиске «забытых научных истин», Уэс Рот привел в пример историю жидкосолевых ториевых ядерных реакторов. Все фундаментальные исследования по торию были успешно проведены в США еще в 1970-х годах, однако проект закрыли, так как ториевый цикл не производил оружейный плутоний для ядерного оружия. В итоге сегодня Китай воспользовался этими открытыми американскими наработками и построил действующий ториевый реактор в пустыне Гоби, потенциально решив свою энергетическую проблему на десятилетия вперед. Спикеры надеются, что ИИ сможет проанализировать архивы мировой науки и реанимировать тысячи подобных перспективных проектов.
🧬 Эволюция алгоритмов и барьеры рекурсивного самосовершенствования 36:43
Обсуждая прогнозы Сэма Альтмана о «личиночной стадии рекурсивного самосовершенствования ИИ» и гипотезы Леопольда Ашенбреннера о вертикальном технологическом взлете к 2027 году, Джон поделился академическим взглядом на проблему. В середине 2010-х годов он получил степень магистра в области ИИ в Университете Джорджии, пытаясь объединить нейросети и генетические эволюционные алгоритмы. В те годы для этого не хватало ни вычислительных мощностей, ни математического аппарата.
Сегодня этот синтез стал реальностью, однако ключевым барьером на пути создания самоэволюционирующих систем Джон назвал отсутствие эффективных алгоритмов «симулированного полового размножения» моделей. Нам понятно, как заставить одну модель мутировать или улучшать саму себя (как это делает машина Гёделя или агенты в игре «Колонизаторы»). Но в науке пока нет четкого ответа, как взять две высокоэффективные независимые нейросети и скрестить их так, чтобы «дочерняя» модель унаследовала лучшие весовые коэффициенты обоих «родителей».
Архитектурные альтернативы: учителя и эксперты
Пока прямое скрещивание недоступно, разработчики используют обходные пути:
- Эволюция гиперпараметров: Оптимизация внешних настроек обучения (например, динамическое изменение шага обучения — learning rate), что значительно ускоряет тренировку моделей.
- Смесь экспертов (Mixture of Experts — MoE): Выделение специализированных субучастков внутри нейросети (например, математического эксперта объемом 1 млрд параметров внутри общей модели на 10 млрд), которые эволюционируют изолированно от остальной системы.
- Концепция «учитель-ученик»: Экс-директор по инженерии Google Джо в подкасте SVIC делился работами о самоадаптирующихся моделях, способных менять собственные веса «на лету». В такой парадигме крупная нейросеть-учитель тренирует целую популяцию более простых моделей-учеников, стремясь сдвинуть кривую Гаусса их успеваемости вправо, что требует в разы меньше вычислительных ресурсов, чем классическая брутфорс-эволюция.
🌍 Реальный мир как абсолютный учитель и феномен «неэффективности выборки» 45:52
Доктор Ноу-ит-ол высказал мнение, что текущая архитектура трансформеров близка к своему насыщению, и для достижения истинного сильного ИИ (AGI) потребуется принципиально новый математический сдвиг. Современные нейросети демонстрируют невероятные результаты в тестах вроде MMLU, однако они до сих пор подвержены феномену низкой эффективности выборки (sample inefficiency).
В качестве примера Джон сослался на Ноама Брауна (исследователя ИИ из Meta, ныне работающего в OpenAI над мультиагентными системами). Разработанный Брауном бот для игры в техасский холдем уничтожает профессиональных игроков, но показывает слабые результаты против откровенно плохих игроков («рыб»). Человек мгновенно считывает чужие психологические дефекты и глупые ошибки, адаптируя стратегию, в то время как нейросети требуется слишком много времени и данных для адаптации к иррациональному поведению.
Главным фактором ускорения интеллекта роботов собеседники видят их прямой контакт с физической реальностью. Ян Лекун приводил поразительную статистику: четырехлетний ребенок за счет постоянного взаимодействия с физическим миром впитывает в себя больше битов информации, чем содержится во всех текстовых материалах, когдалибо созданных человечеством за всю историю (порядка 12 триллионов токенов).
Физический мир наказывает за ошибки мгновенно и доходчиво: сломанный манипулятор или падение андроида дают ИИ максимально эффективный сигнал для обучения с подкреплением. В финале дискуссии Уэс Рот резюмировал, что человечеству придется кардинально расширить само понятие интеллекта. ИИ уже видит в молекулярных структурах AlphaFold скрытые паттерны, которые человеческий мозг принципиально не способен осознать, а значит, кремниевый разум будет развиваться по траекториям, далеким от биологических ограничений углеродной жизни.