Почему будущее ИИ за логикой (Reasoning), а не просто масштабом

Y Combinator 80,9 тыс. 35 мин 5 мин 14.11.2024
Главное

Эпоха «грубого» масштабирования нейросетей за счёт простого увеличения вычислительных мощностей уступает место новой парадигме — развитию глубокого логического мышления (reasoning). В новом эпизоде подкаста The Light Cone партнёры Y Combinator обсуждают, как модель OpenAI o1 меняет правила игры для стартапов, почему «эвалы» (наборы тестов) становятся главным рыночным преимуществом и как ИИ начинает проектировать чипы и решать уравнения гидродинамики быстрее инженеров с докторской степенью.

🚀 Пророчество Альтмана и рассвет эры AGI 0:00

Ещё десять лет назад идеи Сэма Альтмана о создании сильного искусственного интеллекта (AGI) казались многим утопичными или даже безумными. Однако, как отмечают партнёры Y Combinator, история подтвердила правоту основателя OpenAI. В своём недавнем эссе Альтман предсказал появление AGI и ASI (суперинтеллекта) в течение «тысяч дней» — по его уточнённым оценкам, это займёт от 4 до 15 лет.

По мнению Альтмана, ИИ станет катализатором «Золотого века», решив проблемы климата, создав космические колонии и обеспечив человечество безграничной энергией. В основе этого оптимизма лежит вера в то, что ИИ станет лучше людей в самой науке, ускоряя прогресс во всех областях физики и инженерии.

Ключевым инструментом для реализации этого сценария стала модель OpenAI o1 (ранее известная как проект Strawberry). В отличие от предыдущих итераций GPT, ориентированных на предсказание следующего токена, o1 фокусируется на «цепочке рассуждений» (Chain of Thought), что позволяет ей решать задачи, ранее недоступные алгоритмам.


🛠️ Проектирование «в железе»: кейс Diode Computer 4:19

Одним из самых ярких примеров мощи новых моделей стал стартап Diode Computer, участвовавший в хакатоне OpenAI и YC. Компания строит ИИ-дизайнера для проектирования печатных плат (PCB).

Процесс создания электроники традиционно состоит из четырёх этапов:

  1. Архитектурное проектирование системы.
  2. Подбор компонентов (резисторы, сенсоры, микроконтроллеры).
  3. Размещение компонентов на схеме.
  4. Трассировка (Routing) — задача, являющаяся NP-полной из-за интерференции слоёв.

До появления модели o1 автоматизация касалась лишь простых схем и базовой трассировки. Как утверждает Диана Ху, модель o1 совершила «скачок», научившись самостоятельно проводить системный дизайн и подбор компонентов, анализируя тысячи даташитов.

В ходе демонстрации система получила высокоуровневый запрос: «Спроектируй носимый монитор сердечного ритма с акселерометром и микроконтроллером». ИИ не просто предложил схему, а выбрал конкретные модели датчиков, соединил их и выдал результат в виде кода на языке arile (электроника как код).

Ранее подобные задачи требовали работы огромного штата инженеров в таких гигантах, как Apple или Nvidia. Теперь же, по мнению участников дискуссии, ИИ способен устранить «узкое горлышко» в проектировании собственного «железа», что может привести к экспоненциальному самосовершенствованию вычислительных систем.


🌊 От текста к чертежам: Camper и уравнения Навье-Стокса 10:21

Ещё одна область, где рассуждения ИИ заменяют человеческую экспертизу — это CAD-системы (автоматизированное проектирование). Стартап Camper создал инструмент, который позволяет генерировать сложные инженерные конструкции с помощью естественного языка.

В качестве примера приводится создание аэродинамических профилей (крыльев). Система получила запрос на проектирование пяти профилей, оптимизированных для скорости 50 миль в час с минимальным лобовым сопротивлением. Для выполнения этой задачи o1 самостоятельно прописала и решила уравнения в частных производных, включая сложнейшие уравнения Навье-Стокса, описывающие движение жидкости и газа.

Там, где раньше требовался инженер с Ph.D. и часы симуляций в SolidWorks, ИИ справляется за минуты, работая в режиме «со-пилота», который буквально управляет интерфейсом инженерного ПО.


🧠 Секрет «мышления»: Reinforcement Learning и Q-learning 13:58

Технологический прорыв o1 обусловлен интеграцией методов обучения с подкреплением (Reinforcement Learning), которые OpenAI оттачивала годами. Гарри Тан напоминает, что первым громким успехом компании была победа ИИ в игре DOTA.

По мнению экспертов YC, архитектура o1 объединяет два направления:

Это позволяет модели тратить больше вычислительных ресурсов на этапе вывода (inference). Чем дольше модель «думает» над задачей, тем качественнее становится результат. Это напоминает работу человеческой научной организации: итеративное улучшение решения через проверку гипотез.


🏰 Новые «рвы» для стартапов: почему важны эвалы 19:32

В мире, где базовые модели становятся всё мощнее, возникает вопрос: в чём заключается конкурентное преимущество (moat) конкретного бизнеса? Партнёры YC уверены, что «просто обёртки» (wrappers) над API больше не жизнеспособны.

Инвестиционный тезис YC: Главным активом стартапа становятся эвалы (evals) — проприетарные наборы из тысяч тестовых случаев и сценариев, которые позволяют довести точность работы ИИ в конкретной нише до 100%.

Джаред Фридман выделяет три составляющие успеха:

  1. Глубокая вертикальная экспертиза: сбор данных в «скучных» или архаичных индустриях (бухгалтерия, юриспруденция, промышленная инженерия), которых нет в открытом доступе для обучения базовых моделей.
  2. Сложные цепочки рассуждений: разбиение задач на этапы и контроль качества на каждом шаге.
  3. Интеграция и UI: создание бесшовного рабочего процесса, который сложно заменить.

📈 Кейс GigML: автоматизация 30 000 тикетов в день 24:26

История компании GigML служит классическим примером «YC-пивота». Основатели, будучи сильными инженерами-исследователями, начинали с идеи помощи индийским студентам при поступлении в вузы США. Позже они переключились на инструменты для файнтюнинга моделей, но быстро поняли, что рынок движется в сторону улучшения базовых моделей, и файнтюнинг становится менее востребованным.

В итоге команда сфокусировалась на автоматизации клиентской поддержки для крупных компаний. Их клиент, индийский сервис доставки Zepto, обрабатывает 30 000 тикетов в день. До использования o1 точность систем на базе GPT-4 с трудом достигала приемлемых значений в сложных случаях.

Благодаря модели o1 и методологии жесткого тестирования (эвалов), GigML удалось:

Это позволило автоматизировать труд более чем тысячи операторов службы поддержки, чья работа была крайне монотонной и характеризовалась высокой текучкой кадров (в среднем люди работали там менее полугода).


🔮 Будущее: мир атомов и риск депрекации 31:51

Прогресс в области reasoning-моделей ставит под угрозу стартапы, которые строили собственные системы «цепочек рассуждений» поверх старых моделей. По мнению Харджа Таггара, разработчикам ИИ-агентов для написания кода стоит серьёзно задуматься, так как o1 уже демонстрирует превосходство в решении задач программирования «из коробки».

Однако для тех, кто работает с «миром атомов», открываются безграничные возможности. Модели, понимающие физику и химию, станут основой для новых гигантов в областях:

«Это худшее состояние, в котором эти модели когда-либо будут находиться», — резюмирует Гарри Тан. Мы находимся в моменте, когда вещи, казавшиеся невозможными месяц назад, становятся рутиной сегодня.

💬 Цитаты

«Это буквально те же идеи, о которых Сэм говорил в 2015 году, когда основал OpenAI. Тогда он звучал как сумасшедший, а теперь он оказался прав.»

Джаред Фридман 01:49

«Вашим преимуществом (moat) станут эвалы — 10 000 тест-кейсов на основе проприетарных данных, которых нет в открытом интернете.»

Гарри Тан 20:15

«Это худшее состояние, в котором эти модели когда-либо будут находиться. То, что было невозможно месяц назад, сегодня работает идеально.»

Гарри Тан 31:39
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Reasoning (Рассуждение)
Способность модели ИИ последовательно обдумывать задачу, разбивая её на логические этапы перед выдачей ответа.
NP-полная задача
Тип задач в информатике, для которых не существует быстрого алгоритма решения, и сложность растёт экспоненциально с увеличением входных данных.
Evals (Эвалы)
Системы оценки качества работы ИИ, состоящие из набора тестов для проверки точности и отсутствия галлюцинаций.
Chain of Thought (Цепочка мыслей)
Метод, при котором модель ИИ записывает свои промежуточные логические шаги, что повышает точность сложных вычислений.
📊 Цифры
🗓 Хронология
  1. 2015 Основание OpenAI; Сэм Альтман начинает продвигать идеи AGI в YC.
  2. Сентябрь 2024 Выход превью-версии модели OpenAI o1, ориентированной на reasoning.
  3. 2026 Ожидаемый рост инвестиций в обучение ИИ до четырех порядков (до $1 трлн).
⚖️ Другая сторона
Искусственный интеллект OpenAI o1 Y Combinator Reinforcement Learning Diode Computer GigML