Почему будущее ИИ за логикой (Reasoning), а не просто масштабом

Эпоха «грубого» масштабирования нейросетей за счёт простого увеличения вычислительных мощностей уступает место новой парадигме — развитию глубокого логического мышления (reasoning). В новом эпизоде подкаста The Light Cone партнёры Y Combinator обсуждают, как модель OpenAI o1 меняет правила игры для стартапов, почему «эвалы» (наборы тестов) становятся главным рыночным преимуществом и как ИИ начинает проектировать чипы и решать уравнения гидродинамики быстрее инженеров с докторской степенью.

🚀 Пророчество Альтмана и рассвет эры AGI 0:00

Ещё десять лет назад идеи Сэма Альтмана о создании сильного искусственного интеллекта (AGI) казались многим утопичными или даже безумными. Однако, как отмечают партнёры Y Combinator, история подтвердила правоту основателя OpenAI. В своём недавнем эссе Альтман предсказал появление AGI и ASI (суперинтеллекта) в течение «тысяч дней» — по его уточнённым оценкам, это займёт от 4 до 15 лет.

По мнению Альтмана, ИИ станет катализатором «Золотого века», решив проблемы климата, создав космические колонии и обеспечив человечество безграничной энергией. В основе этого оптимизма лежит вера в то, что ИИ станет лучше людей в самой науке, ускоряя прогресс во всех областях физики и инженерии.

Ключевым инструментом для реализации этого сценария стала модель OpenAI o1 (ранее известная как проект Strawberry). В отличие от предыдущих итераций GPT, ориентированных на предсказание следующего токена, o1 фокусируется на «цепочке рассуждений» (Chain of Thought), что позволяет ей решать задачи, ранее недоступные алгоритмам.

🛠️ Проектирование «в железе»: кейс Diode Computer 4:19

Одним из самых ярких примеров мощи новых моделей стал стартап Diode Computer, участвовавший в хакатоне OpenAI и YC. Компания строит ИИ-дизайнера для проектирования печатных плат (PCB).

Процесс создания электроники традиционно состоит из четырёх этапов:

Архитектурное проектирование системы.
Подбор компонентов (резисторы, сенсоры, микроконтроллеры).
Размещение компонентов на схеме.
Трассировка (Routing) — задача, являющаяся NP-полной из-за интерференции слоёв.

До появления модели o1 автоматизация касалась лишь простых схем и базовой трассировки. Как утверждает Диана Ху, модель o1 совершила «скачок», научившись самостоятельно проводить системный дизайн и подбор компонентов, анализируя тысячи даташитов.

В ходе демонстрации система получила высокоуровневый запрос: «Спроектируй носимый монитор сердечного ритма с акселерометром и микроконтроллером». ИИ не просто предложил схему, а выбрал конкретные модели датчиков, соединил их и выдал результат в виде кода на языке arile (электроника как код).

Ранее подобные задачи требовали работы огромного штата инженеров в таких гигантах, как Apple или Nvidia. Теперь же, по мнению участников дискуссии, ИИ способен устранить «узкое горлышко» в проектировании собственного «железа», что может привести к экспоненциальному самосовершенствованию вычислительных систем.

🌊 От текста к чертежам: Camper и уравнения Навье-Стокса 10:21

Ещё одна область, где рассуждения ИИ заменяют человеческую экспертизу — это CAD-системы (автоматизированное проектирование). Стартап Camper создал инструмент, который позволяет генерировать сложные инженерные конструкции с помощью естественного языка.

В качестве примера приводится создание аэродинамических профилей (крыльев). Система получила запрос на проектирование пяти профилей, оптимизированных для скорости 50 миль в час с минимальным лобовым сопротивлением. Для выполнения этой задачи o1 самостоятельно прописала и решила уравнения в частных производных, включая сложнейшие уравнения Навье-Стокса, описывающие движение жидкости и газа.

Там, где раньше требовался инженер с Ph.D. и часы симуляций в SolidWorks, ИИ справляется за минуты, работая в режиме «со-пилота», который буквально управляет интерфейсом инженерного ПО.

🧠 Секрет «мышления»: Reinforcement Learning и Q-learning 13:58

Технологический прорыв o1 обусловлен интеграцией методов обучения с подкреплением (Reinforcement Learning), которые OpenAI оттачивала годами. Гарри Тан напоминает, что первым громким успехом компании была победа ИИ в игре DOTA.

По мнению экспертов YC, архитектура o1 объединяет два направления:

Генеративное обучение: предсказание паттернов на основе огромных массивов данных.
RL и Q-learning: использование функции вознаграждения для поиска правильного пути решения.

Это позволяет модели тратить больше вычислительных ресурсов на этапе вывода (inference). Чем дольше модель «думает» над задачей, тем качественнее становится результат. Это напоминает работу человеческой научной организации: итеративное улучшение решения через проверку гипотез.

🏰 Новые «рвы» для стартапов: почему важны эвалы 19:32

В мире, где базовые модели становятся всё мощнее, возникает вопрос: в чём заключается конкурентное преимущество (moat) конкретного бизнеса? Партнёры YC уверены, что «просто обёртки» (wrappers) над API больше не жизнеспособны.

Инвестиционный тезис YC: Главным активом стартапа становятся эвалы (evals) — проприетарные наборы из тысяч тестовых случаев и сценариев, которые позволяют довести точность работы ИИ в конкретной нише до 100%.

Джаред Фридман выделяет три составляющие успеха:

Глубокая вертикальная экспертиза: сбор данных в «скучных» или архаичных индустриях (бухгалтерия, юриспруденция, промышленная инженерия), которых нет в открытом доступе для обучения базовых моделей.
Сложные цепочки рассуждений: разбиение задач на этапы и контроль качества на каждом шаге.
Интеграция и UI: создание бесшовного рабочего процесса, который сложно заменить.

📈 Кейс GigML: автоматизация 30 000 тикетов в день 24:26

История компании GigML служит классическим примером «YC-пивота». Основатели, будучи сильными инженерами-исследователями, начинали с идеи помощи индийским студентам при поступлении в вузы США. Позже они переключились на инструменты для файнтюнинга моделей, но быстро поняли, что рынок движется в сторону улучшения базовых моделей, и файнтюнинг становится менее востребованным.

В итоге команда сфокусировалась на автоматизации клиентской поддержки для крупных компаний. Их клиент, индийский сервис доставки Zepto, обрабатывает 30 000 тикетов в день. До использования o1 точность систем на базе GPT-4 с трудом достигала приемлемых значений в сложных случаях.

Благодаря модели o1 и методологии жесткого тестирования (эвалов), GigML удалось:

Снизить уровень ошибок с 70% до 5%.
Поднять точность решения сложных пограничных случаев (edge cases) с 0% до 85%.

Это позволило автоматизировать труд более чем тысячи операторов службы поддержки, чья работа была крайне монотонной и характеризовалась высокой текучкой кадров (в среднем люди работали там менее полугода).

🔮 Будущее: мир атомов и риск депрекации 31:51

Прогресс в области reasoning-моделей ставит под угрозу стартапы, которые строили собственные системы «цепочек рассуждений» поверх старых моделей. По мнению Харджа Таггара, разработчикам ИИ-агентов для написания кода стоит серьёзно задуматься, так как o1 уже демонстрирует превосходство в решении задач программирования «из коробки».

Однако для тех, кто работает с «миром атомов», открываются безграничные возможности. Модели, понимающие физику и химию, станут основой для новых гигантов в областях:

Машиностроения и электротехники.
Биоинженерии и разработки лекарств.
Климатических технологий.

«Это худшее состояние, в котором эти модели когда-либо будут находиться», — резюмирует Гарри Тан. Мы находимся в моменте, когда вещи, казавшиеся невозможными месяц назад, становятся рутиной сегодня.