На прошлой неделе организация Meter (MER), занимающаяся вопросами безопасности и оценки ИИ, опубликовала обновленный график горизонтов планирования нейросетей, вызвавший волну паники в индустрии. Кэл Ньюпорт анализирует, почему резкий взлет графиков в 2025–2026 годах не означает пришествие «сверхразума», а является результатом узконаправленной инженерной работы над инструментами для программистов.
📈 «График ужаса»: почему интернет заговорил о конце человечества 0:00
Новое обновление графика Meter показывает, что возможности ИИ начинают резко расти по экспоненте в районе 2025 года. К 2026 году кривая уходит практически вертикально вверх, что создает у зрителя, по выражению Кэла Ньюпорта, «ощущение цифровой жути».
Реакция интернет-сообщества, которую в своей рассылке собрал Гэри Маркус, оказалась предсказуемо панической:
- В соцсетях утверждают, что мощность ИИ удваивается каждые 103 дня и скоро «поглотит всё».
- Выдвигаются гипотезы, что мы находимся на пороге появления «эргодического инопланетного интеллекта», в котором человеческий вклад станет лишь обузой.
- Популярность набирают графики, где кривая возможностей ИИ пересекает «красную линию» человеческого мозга, за которой следует взрывной рост искусственного сверхразума (ASI).
Однако, как отмечает Кэл Ньюпорт, прежде чем делать выводы о гибели цивилизации, необходимо разобраться в методологии того, что именно измеряет Meter.
🧪 Методология Meter: как на самом деле тестируют модели 2:44
Кэл Ньюпорт подчеркивает, что Meter крайне прозрачны в своих методах. Организация создала набор «программных задач» — четко определенных вызовов, которые решаются написанием или анализом кода.
Процесс оценки выглядит следующим образом:
- Группу программистов просят выполнить задачу максимально быстро.
- Вычисляется среднее геометрическое времени, затраченного людьми (например, «двухчасовая задача»).
- Затем на этих же задачах тестируют большие языковые модели (LLM).
Критически важный нюанс заключается в том, что LLM тестируется не сама по себе, а в связке со «скаффолдом» (scaffold) или «кодинг-харнессом» (coding harness) — внешней программой-оболочкой, такой как Claude Code, Cursor или Codeium. Этот «харнесс» может запрашивать у модели план действий, пошагово его выполнять, проверять код на ошибки и взаимодействовать с инструментами разработки.
Модель считается справившейся с задачей, если в связке с оболочкой она успешно решает её как минимум в 50% случаев из шести попыток. График Meter фиксирует самую длительную по человеческим меркам задачу, которую ИИ смог одолеть с такой вероятностью.
⚠️ Ловушка интерпретации: чего НЕ показывает график 8:14
По мнению Кэла Ньюпорта, многие ошибочно интерпретируют данные Meter как показатель общих способностей ИИ. Ведущий выделяет несколько ключевых ограничений:
- Узкая специализация. Тест измеряет только конкретные задачи программирования, а не общий интеллект (AGI).
- Контекстный разрыв. 12-часовая задача для ИИ не эквивалентна 12 часам работы профессионала. По признанию самих Meter, их шкала времени ближе к тому, что может сделать «человек с низким контекстом», например, новый сотрудник или фрилансер, который тратит часы на изучение документации и основ языка.
- Абстрактная сложность. Цифры на графике стоит воспринимать не как реальные часы работы, а как абстрактную меру сложности.
Кэл Ньюпорт утверждает, что если модель справляется с «16-часовой» задачей, это не значит, что она может заменить сотрудника на весь рабочий день; это значит, что она стала лучше справляться с более сложным программированием.
🔄 От пре-тренинга к пост-обучению: история взлета 12:37
Долгое время график Meter оставался плоским. До появления Claude Sonnet 3.5 и o1-preview модели практически не справлялись со сложными тестами. Кэл Ньюпорт объясняет это сменой парадигмы в разработке ИИ.
До лета 2024 года индустрия была сосредоточена на пре-тренинге (pre-training) — обучении моделей на гигантских массивах текстов для предсказания следующего токена. К лету 2024 года такие компании, как OpenAI, обнаружили, что простое масштабирование данных и вычислительных мощностей перестало давать качественные скачки.
Осенью 2024 года фокус сместился на пост-обучение (post-training):
- Модели начали обучать на узких, высококачественных наборах данных (промпт + верный ответ).
- Использование обучения с подкреплением (Reinforcement Learning) позволило «заточить» интеллект под конкретные типы проблем.
- Появились «модели рассуждения» (reasoning models), которые «думают вслух» перед выдачей ответа, что значительно улучшило планирование.
🛠️ Секретный ингредиент: «харнессы» и логика 60-х 16:48
Настоящий экспоненциальный скачок на графике Meter в конце 2025 — начале 2026 года связан не только с улучшением самих LLM, но и с развитием «агентских» систем кодирования.
Кэл Ньюпорт ссылается на утечку исходного кода одного из таких инструментов (Claude Code), которая показала неожиданную деталь: внутри этих современных систем скрыто огромное количество «старомодной» логики в стиле ИИ 1960-х годов. Программисты вручную прописывают гигантские деревья условий «if-then», распознавание паттернов и алгоритмы взаимодействия с внешними инструментами.
Таким образом, впечатляющие результаты — это симбиоз трех факторов:
- Тюнингованная LLM, умеющая строить планы.
- Год-полтора напряженной ручной работы инженеров над оболочками (харнессами).
- Экспертные знания программистов, заложенные в код этих инструментов.
Ведущий подчеркивает, что это история успеха коммерческого продукта, а не предвестник конца света.
🌊 Модель «Уровня воды» против модели «Притоков» 21:22
Для объяснения прогресса ИИ Кэл Ньюпорт предлагает сменить ментальную модель.
Популярная, но, по мнению ведущего, ошибочная модель (встречающаяся у Макса Тегмарка) уподобляет способности ИИ поднимающемуся уровню воды, который постепенно затапливает вершины сложности. В этой логике, если ИИ «затопил» программирование, скоро он «затопит» и всё остальное.
Правильная модель, по мнению Ньюпорта, — это река с множеством притоков:
- Каждый приток — это отдельная сфера применения технологии.
- Мы не знаем заранее, насколько судоходен приток, пока не попробуем вложить в него силы и создать инструменты.
- «Приток» программирования оказался очень глубоким и удобным для навигации.
- Другие притоки (например, автоматизация всей электронной почты) могут оказаться мелкими, полными порогов или вообще тупиковыми.
В подтверждение этого ведущий приводит индекс возможностей Epoch (ECI), который охватывает множество сфер, а не только код: там наблюдается лишь медленный линейный рост, а не экспоненциальный взлет.
🏛️ Призыв к ИИ-гигантам: пора дистанцироваться от культов 26:21
В завершение Кэл Ньюпорт анализирует истоки панических настроений. Он связывает их с сообществом трансгуманистов, выросшим из идей Рэя Курцвейла об экспоненциальном росте мощностей. Для этого сообщества любой экспоненциальный график — это «религиозное событие», обещающее либо утопию (загрузку сознания), либо апокалипсис.
Ньюпорт выступает с жестким требованием к руководителям крупнейших компаний (Дарио Амодеи, Сэму Альтману, Илону Маску):
- ИИ-компании стали слишком большими и важными, чтобы ассоциироваться с «культом экспонент».
- Лидерам индустрии пора прямо заявить, что паникерские твиты об «алиенах» и «пожирании мира» — это «кукушество», не имеющее отношения к их работе.
- Необходимо перевести диалог в плоскость создания полезных инструментов, честно говоря об их ограничениях и неудачах.
«Настало время дистанцировать образ ИИ от сообществ, которые всех пугают до смерти», — резюмирует Кэл Ньюпорт.