Миф об универсальности трансформеров: взгляд Франсуа Шолле

Интеллект — это не коллекция выученных навыков, а способность эффективно приобретать новые знания, и современные нейросети, застрявшие в режиме интерполяции, пока далеки от этого идеала. Несмотря на впечатляющие масштабы, трансформеры часто демонстрируют лишь иллюзию абстрактного мышления, маскируя «перцептивную утечку» под решение задач. Чтобы создать подлинно разумные системы, необходимо отойти от простого накопления данных в сторону композиционных алгоритмов и механизмов активного вывода.

🧠 Интеллект как эффективность: почему нейросети пасуют перед ARC Challenge 0:00

В мире современного машинного обучения наметился парадокс: пока большие языковые модели демонстрируют впечатляющие результаты в чатах, фундаментальный разрыв в их способности к истинному мышлению становится всё более очевидным. Франсуа Шолле (François Chollet), выдающийся исследователь ИИ и автор библиотеки Keras, разработал ARC Challenge (Abstraction and Reasoning Corpus) именно для того, чтобы подсветить эту проблему. ARC — это не просто очередной бенчмарк; это тест на «интеллектуальную эффективность», призванный выявить неспособность современных нейросетей к глубокому логическому выводу и генерализации в условиях острой нехватки данных. В то время как классическое глубокое обучение требует миллионов примеров для настройки весов, ARC предлагает системе понять концепцию всего по двум-трём образцам, что является непреодолимым барьером для моделей, полагающихся на статистическую интерполяцию.

Кризис глубокого обучения: ловушка интерполяции 0:26

Современные ML-модели, какими бы мощными они ни казались, по сути работают как гигантские «интерполирующие базы данных». Основная критика Франсуа Шолле в адрес нынешнего подхода заключается в том, что нейросети блестяще находят закономерности в уже виденных данных, но пасуют перед задачами, требующими осознанного приобретения новых знаний (reasoning).

Проблема аппроксимации: Вместо того чтобы выводить логические правила, модели пытаются «подогнать» ответ под знакомые паттерны.
Отсутствие гибкости: Если задача выходит за рамки обучающего распределения, производительность системы резко падает.
Иллюзия понимания: Способность поддерживать диалог часто путают с интеллектом, хотя это лишь результат обработки колоссальных объемов текста.

Как отмечается в дискуссии, для решения ARC необходимо именно рассуждение, поскольку алгоритм не может «сжульничать», опираясь на зазубренные факты. Это ставит под сомнение саму архитектуру современных трансформеров как путь к сильному ИИ (AGI), если они не способны к эффективному обучению на лету. В ходе беседы упоминаются современные попытки обойти это ограничение, такие как метод «Neural guided program search», который будет подробно рассмотрен позже.

Эффективность обучения как мера разума 3:18

Одним из ключевых вкладов Франсуа Шолле является новое определение интеллекта. Он предлагает рассматривать его не как объем накопленных навыков, а как «эффективность приобретения знаний» (knowledge acquisition efficiency). С этой точки зрения, если две системы достигают одинакового уровня мастерства в задаче, более интеллектуальной считается та, которая затратила на обучение меньше ресурсов и данных.

ARC Challenge спроектирован так, чтобы быть «минимально предвзятым» (minimally biased) относительно предварительного обучения. Идея в том, что интеллект — это не то, что вы уже знаете (knowledge), а то, насколько быстро вы можете превратить неопределенность в работающую программу действий. Если система требует 10 000 примеров, чтобы понять, что такое «квадрат внутри квадрата», её интеллектуальная эффективность близка к нулю. Для человека же, даже для ребенка, достаточно одного взгляда, чтобы уловить абстракцию и применить её в новом контексте.

Анатомия ARC: пространство аналогий и визуальной логики 4:38

Технически задачи ARC представляют собой сетки с цветными пикселями. Испытуемому показывают левую сторону (вход) и правую сторону (выход) для нескольких примеров, после чего нужно заполнить выход для нового тестового входа. Это — чистое пространство аналогий.

Задачи строятся на фундаментальных концепциях, которые Шолле называет «основными подпрограммами» или ментальными эвристиками. Они включают в себя:

Геометрию и топологию: понимание линий, углов и замкнутых контуров.
Объектность: способность выделить группу пикселей как единую сущность, которая может двигаться или менять цвет.
Симметрию и вращение: узнавание паттерна после его зеркального отражения или поворота.

Чтобы решить задачу, необходимо провести своего рода «брутфорс-поиск» в пространстве возможных программ, которые могли бы описать трансформацию. Человек делает это интуитивно, быстро отсекая невозможные варианты, в то время как для машин это превращается в колоссальную поисковую задачу. Ранее в разговоре авторы упоминали подход Райана Гринблатта, который смог достичь значительных результатов, используя комбинацию LLM и генерации кода, но даже такие системы сталкиваются с проблемой вычислительной сложности при увеличении глубины логического вывода.

Человеческий уровень против алгоритмического перебора 19:46

Удивительно, но задачи, которые ставят в тупик суперкомпьютеры, тривиальны для людей. Среднестатистический человек способен решить около 85% задач ARC без специальной подготовки. Это происходит потому, что наш мозг обладает врожденными способностями к формированию абстракций.

Проблема современных моделей в том, что они пытаются решить ARC через «обучение в контексте» (in-context learning), фактически превращая задачу в поиск по статистическому сходству. Однако Франсуа Шолле подчеркивает: ARC был создан, чтобы противостоять именно этому подходу. Даже если модель показывает 50% успеха на открытом наборе данных, она часто проваливается на скрытых тестах, что указывает на оверфиттинг (переобучение) под конкретные типы геометрии, представленные в обучающей выборке. Истинный прогресс в области ИИ наступит только тогда, когда системы научатся не просто имитировать решение, а конструировать внутреннюю логическую модель задачи так же эффективно, как это делает человеческий разум.

🧠 Методы поиска решений и критика в-контекстного обучения 28:33

Современные подходы к решению задач ARC, обсуждаемые Франсуа Шолле (François Chollet), демонстрируют отход от чистого обучения на данных к более структурированным архитектурам. Одним из ключевых направлений является нейронно-управляемый программный поиск (neural guided program search), где нейронная сеть используется не как конечный классификатор, а как инструмент, направляющий поиск в пространстве программ. Этот метод позволяет эффективно находить решения в огромном пространстве комбинаций, используя своего рода «сон» для консолидации знаний, что обеспечивает более эффективный перебор вариантов, чем слепое обучение на примерах.

🛠 Успех подхода Райана Гринблатта 31:29

Значительный вклад в развитие методологии решения ARC внесли исследования, проведенные Райаном Гринблаттом и командой Redwood Research. Их подход базировался на использовании мощных языковых моделей (LLM) для генерации тысяч потенциальных Python-программ, которые затем проходили через жесткую фильтрацию и итеративную отладку.

Эта стратегия показала, что использование LLM в качестве генератора кода с последующей проверкой правильности позволяет достичь высокой точности, вплоть до 50% на задачах ARC. Ключевой особенностью данного решения является сочетание генеративного потенциала модели с внешней проверкой, что позволяет преодолеть ограничения «кристаллизованных» моделей, обладающих лишь конечной емкостью состояний.

🔍 Критика «в-контекстного» обучения 40:11

В ходе дискуссии была поднята фундаментальная проблема «в-контекстного обучения» (in-context learning). Существует мнение, что способность LLM к решению новых задач может быть иллюзорной. Вместо реального формирования новых логических концептов или алгоритмов «на лету», модели часто занимаются эффективным извлечением данных из своей обучающей базы.

Основные тезисы критики включают:

Ограниченность памяти: Модели обладают конечной емкостью, и их рассуждения по сути являются «неявными» (implicit reasoning).
Модели как базы данных: Если модель не встречала аналогичной структуры данных в обучении, ей нечего «извлечь», что делает её беспомощной перед задачами вне распределения (out-of-distribution).
Проблема заучивания: Существует опасность, что модели лишь запоминают пути к решениям, а не обучаются правилам, что при построении t-SNE графиков выглядело бы как простая кластеризация имеющихся знаний, а не синтез новых.

Ранее в разговоре участники касались более общих вопросов генерализации и недостатков современных ML-архитектур, однако в данном контексте важно подчеркнуть: Франсуа Шолле (François Chollet) настаивает на том, что без способности к истинному абстрагированию, модели будут лишь эксплуатировать комбинаторные короткие пути, а не демонстрировать настоящий интеллект.

🧠 Архитектура интеллекта: от автоматизма к композиции знаний 51:51

В дискуссии о природе искусственного интеллекта и успехах в решении ARC Challenge ключевым моментом стало переосмысление того, как мы классифицируем мыслительные процессы. Франсуа Шолле и его собеседники подчеркивают, что разделение на «Систему 1» (интуитивное, быстрое мышление) и «Систему 2» (логическое, сознательное планирование) не должно быть жесткой дихотомией. Вместо этого они предлагают рассматривать их как непрерывный континуум, где автоматические, перцептивные процессы плавно перетекают в осознанные логические операции.

В этом контексте современные нейронные сети всё чаще воспринимаются как «хранилища» кристаллизованного интеллекта. Использование больших языковых моделей (LLM) для таких задач — это, по сути, работа с огромной базой данных накопленных знаний, в то время как «флюидный» (подвижный) интеллект, необходимый для адаптации к совершенно новым, незнакомым условиям ARC, требует иных механизмов.

🧩 Психологический фундамент и композиция примитивов 52:38

Опираясь на теорию интеллекта Кеттелла-Хорна-Кэрролла (CHC), участники обсуждения выделяют значимость когнитивного подхода к построению ИИ. Попытки создать системы, способные к реальной генерализации, включают:

Использование индуктивных априорных знаний: Модели полагаются на заложенные в них базовые «ядра знаний», которые помогают сузить пространство поиска решений.
Композиционный поиск: Вместо попыток охватить всё обучение «в лоб», эффективные подходы (например, используемые командой Джека Коула) фокусируются на поиске в пространстве функций. Система разбивает задачу на элементарные примитивы (повороты, отражения, сдвиги), комбинируя которые, можно построить решение для трансформации данных.
«Ленивая» оценка (Lazy Evaluation): Интеграция методов, при которых вычисления проводятся только при необходимости, позволяет повысить вычислительную эффективность, что напоминает принципы свободной энергии Фристона.

🛠 Проблема поиска в пространстве возможностей 1:00:28

Обсуждая архитектуру поиска, участники подчеркивают, что успешное решение задачи ARC сильно зависит от того, как именно система определяет свою «цель» или «объект». Если ранее в разговоре упоминались методы нейронного поиска программ (neural guided program search), то здесь акцент делается на создании DSL (предметно-ориентированных языков).

Франсуа Шолле и другие исследователи отмечают, что создание правильной структуры DSL — это «палка о двух концах». С одной стороны, это позволяет системе эффективно манипулировать геометрией домена. С другой стороны, важно не превратить систему в набор статичных правил, иначе модель теряет способность к подлинной генерализации и становится «узкоспециализированной».

Настоящая мощь, по мнению участников, заключается в способности системы к композиции: если модель понимает структуру, она может собирать новые решения из базовых знаний, а не просто копировать заученные примеры.

🧠 Динамическое дообучение и оптимизация как ядро интеллекта 1:17:38

Активный вывод: преодоление дефицита данных через тест-тайм адаптацию 1:17:38

При детальном анализе практических подходов к прохождению сложнейшего бенчмарка ARC, участники дискуссии подробно останавливаются на концепции активного вывода (active inference). Ранее в разговоре собеседники уже затрагивали общую суть ARC и фундаментальную проблему генерализации ИИ, однако в данном фрагменте фокус полностью смещается на преодоление критического ограничения современных базовых моделей — катастрофической нехватки специфических обучающих данных. Эффективным решением этой проблемы становится глубокая аугментация доступных данных ARC с последующей тонкой настройкой (fine-tuning) нейросети непосредственно в процессе решения конкретной тестовой задачи <a class="ts" data-seconds="4673" href="#t=4673" title="Смотреть с 1:17:53" aria-label="Смотреть с 1:17:53"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>. Этот метод, по сути представляющий собой тест-тайм адаптацию, позволяет гибко подстроить веса системы под уникальные условия головоломки перед тем, как запустить её финальное тестирование на скрытом приватном наборе данных (private set) <a class="ts" data-seconds="4698" href="#t=4698" title="Смотреть с 1:18:18" aria-label="Смотреть с 1:18:18"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>.

Главный практический вызов здесь заключается в том, каким именно образом можно адекватно репрезентировать пространственные и логические задачи ARC внутри стандартной большой языковой модели <a class="ts" data-seconds="4727" href="#t=4727" title="Смотреть с 1:18:47" aria-label="Смотреть с 1:18:47"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>. Исследователи вынуждены постоянно экспериментировать с различными способами кодирования условий визуальной задачи в текстовую форму. Полученный текст должен быть жестко оптимизирован, чтобы гарантированно умещаться в ограниченное контекстное окно трансформера <a class="ts" data-seconds="4801" href="#t=4801" title="Смотреть с 1:20:01" aria-label="Смотреть с 1:20:01"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>. Ранее в беседе упоминался метод нейронного поиска программ (neural guided program search), но активный вывод предлагает принципиально иной путь — опереться на сильные стороны классической трансформерной архитектуры <a class="ts" data-seconds="4906" href="#t=4906" title="Смотреть с 1:21:46" aria-label="Смотреть с 1:21:46"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a> и заставить модель обучаться прямо в момент инференса <a class="ts" data-seconds="4972" href="#t=4972" title="Смотреть с 1:22:52" aria-label="Смотреть с 1:22:52"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>.

В режиме активного вывода нейросеть задействует механизмы самовнимания для выявления скрытых закономерностей, перестановок и симметрий в тестовых объектах. Это позволяет динамически комбинировать целые ансамбли различных моделей, наделенных уникальными индуктивными смещениями. Известный исследователь Франсуа Шолле (François Chollet) полностью разделяет мнение о том <a class="ts" data-seconds="5135" href="#t=5135" title="Смотреть с 1:25:35" aria-label="Смотреть с 1:25:35"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>, что настоящий интеллект определяется способностью системы максимально быстро и глубоко осваивать новые навыки в рамках узкого, незнакомого домена, с которым она столкнулась впервые <a class="ts" data-seconds="5065" href="#t=5065" title="Смотреть с 1:24:25" aria-label="Смотреть с 1:24:25"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>.

Роль SGD: почему оптимизация является частью разума, а не просто инструментом 1:27:12

Вторым ключевым вектором дискуссии становится фундаментальный теоретический сдвиг: переосмысление роли градиентного спуска (SGD) в работе интеллектуальных систем. В традиционном машинном обучении процессы тренировки и инференса жестко разделены во времени. Однако при решении задач на подлинную генерализацию участники приходят к выводу, что современные нейронные сети должны непрерывно продолжать внутренний поиск решений <a class="ts" data-seconds="5232" href="#t=5232" title="Смотреть с 1:27:12" aria-label="Смотреть с 1:27:12"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>. Они подчеркивают, что процесс оптимизации (SGD) является не внешним техническим инструментом для предварительной подготовки модели, а неотъемлемой и базовой частью самого интеллекта модели, которая обязана учитываться при итоговой оценке её когнитивных способностей.

Когда модель сталкивается с новой задачей, её вычисления направлены на поиск наиболее лаконичных паттернов композиции с учетом строгих ограничений на минимальную длину описания <a class="ts" data-seconds="5596" href="#t=5596" title="Смотреть с 1:33:16" aria-label="Смотреть с 1:33:16"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>. Фактически внутри работающей нейросети разворачивается полноценный мета-поиск <a class="ts" data-seconds="5609" href="#t=5609" title="Смотреть с 1:33:29" aria-label="Смотреть с 1:33:29"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>. Вместо банального извлечения статичных фактов из памяти, глубокие модели вынуждены запускать внутренний оптимизационный цикл, чтобы реконструировать базовые аксиомы и понять, как именно функционирует микромир конкретного теста. Авторы отмечают, что детальные подробности этих механизмов станут понятны широкой общественности позже, когда будет официально опубликована их научная статья <a class="ts" data-seconds="5346" href="#t=5346" title="Смотреть с 1:29:06" aria-label="Смотреть с 1:29:06"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>.

Такой взгляд на SGD кардинально меняет подход к тестированию ИИ. Новейшие мультимодальные модели обладают колоссальным разрешением восприятия, но при этом они фатально склонны к переобучению (overfitting) на дискретных логических задачах <a class="ts" data-seconds="5884" href="#t=5884" title="Смотреть с 1:38:04" aria-label="Смотреть с 1:38:04"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>. Они просто зазубривают структуру обучающего датасета, полностью теряя гибкость при встрече с новизной. Эту проблему наглядно иллюстрирует реальный инженерный опыт разработчиков:

При первичных попытках запустить чистую базовую модель на бенчмарке ARC, система не могла набрать ни одного балла <a class="ts" data-seconds="5990" href="#t=5990" title="Смотреть с 1:39:50" aria-label="Смотреть с 1:39:50"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>.
Без динамической оптимизации на этапе инференса модель оказывалась абсолютно беспомощной перед простыми визуальными правилами.
Переломный момент наступил исключительно после интеграции механизмов тест-тайм оптимизации и дополнительной аугментации данных.
Благодаря включению SGD в контур вывода, инженерам наконец удалось получить первый долгожданный балл <a class="ts" data-seconds="6002" href="#t=6002" title="Смотреть с 1:40:02" aria-label="Смотреть с 1:40:02"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>, что открыло дорогу к дальнейшему масштабированию успеха за счет привлечения дополнительных данных <a class="ts" data-seconds="6015" href="#t=6015" title="Смотреть с 1:40:15" aria-label="Смотреть с 1:40:15"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>.

Этот прецедент доказывает важнейший тезис, который активно продвигает Франсуа Шолле (François Chollet): подлинный искусственный интеллект не может быть статичным архивом знаний. Интеллект — это прежде всего динамический алгоритм непрерывного поиска и адаптации, где градиентный спуск выступает не просто методом обучения, а главным внутренним движком живого мышления машины в момент столкновения с неизвестным.

🧠 Аугментация данных, ассоциативное мышление трансформеров и барьеры масштабирования 1:40:32

Синтетические данные и пределы реверс-инжиниринга ARC 1:40:45

Создание эффективных систем искусственного интеллекта неизбежно упирается в фундаментальный вопрос: из каких источников модель извлекает свои знания о мире и каким образом она ими оперирует в процессе работы? В ходе оживленной дискуссии Франсуа Шолле и его собеседники детально разбирают, какой колоссальный объем человеческого проектирования и интеллектуальных усилий уходит на создание специализированных предметно-ориентированных языков (DSL). Функциональные возможности и операторы этих языков скрупулезно настраиваются инженерами вручную с одной главной целью — генерировать структурированные синтетические данные, пригодные для последующего обучения нейросетей. На стыке этих подходов с новой силой разгорается давний спор между сторонниками чисто символического искусственного интеллекта и адептами глубокого обучения. Как отмечают участники беседы, без органичного решения этой проблемы современные архитектуры демонстрируют крайне низкую эффективность конверсии данных и попросту не способны полноценно обучаться сложным абстрактным правилам без жестко зашитых в них внешних ограничений.

В качестве наглядного примера, подтверждающего этот тезис, в интервью приводится детальный разбор недавнего эксперимента. Один из исследователей предпринял попытку обучить модель, используя массив из 400 базовых тренировочных задач, взятых напрямую из знаменитого бенчмарка ARC. Для каждого из этих заданий было сгенерировано огромное фиксированное множество синтетических примеров и вариантов, которые должны были максимально расширить и разнообразить обучающую выборку. Однако результаты тестирования обученной таким образом системы оказались отрезвляющими для всей команды: максимальный показатель точности, которого удалось достичь на независимом проверочном наборе, застыл на отметке всего в 21%.

Этот скромный результат наглядно обнажает ключевое методологическое ограничение современных нейросетевых подходов. Даже после масштабной генерации данных обученная система осталась строго запертой в границах того узкого набора концептов, который изначально присутствовал в её обучающей выборке. Тщательный анализ показал, что около 22% тестовых заданий из проверочного набора ARC фактически представляли собой скрытое дублирование или незначительное видоизменение исходного распределения аугментированных данных. Это подводит к важному выводу: любые попытки обойти ограничения бенчмарка ARC методом «реверс-инжиниринга» через тотальную аугментацию данных создают лишь иллюзию технологического прорыва. Модель успешно осваивает конкретное распределение, оптимизированное под заданные шаблоны, но это абсолютно не приближает её к развитию способности к гибкому, эффективному человеческому рассуждению перед лицом принципиально новых вызовов.

Как работают трансформеры: ассоциативное обучение в форвард-пассе 1:55:58

Ранее в разговоре спикеры уже подробно анализировали архитектуру ARC, общую проблему генерализации, а также высказывали обоснованную критику в адрес современных ML-моделей и феномена «в-контекстного обучения» (in-context learning). Однако в данном фрагменте дискуссия переходит на качественно иной уровень — к разбору фундаментальных алгоритмических различий между полноценным, динамическим процессом поиска решений (search process) и тем, что в действительности происходит под капотом большой языковой модели.

Вместо того чтобы совершать последовательные логические шаги или строить проверяемые гипотезы, классический трансформер всецело полагается на механизмы динамического ассоциативного обучения, разворачивающиеся непосредственно во время прямого прохода (forward pass). Все вычисления в процессе генерации токенов сводятся к триггеру и сопоставлению внутренних статистических ассоциаций, которые молниеносно активируются внутри скрытых слоёв сети. Франсуа Шолле открыто критикует доминирующее в индустрии мнение, навязываемое маркетингом, будто архитектура трансформеров универсальна и способна решить абсолютно любую интеллектуальную задачу.

Для создания подлинного сильного искусственного интеллекта простого статистического перебора накопленных ассоциаций принципиально недостаточно. Ключевым элементом человеческого разума является способность к созданию аналогий (analogy making) и формированию многоуровневых абстракций. Попытки решить эту фундаментальную проблему лишь за счет экстенсивного усложнения архитектуры или тонкой настройки карт внимания (attention maps) неизбежно заходят в тупик, так как они не меняют базовую природу трансформеров — систем, ориентированных на поиск поверхностных корреляций, а не на генерацию нового знания.

Перцептивная утечка и иллюзия законов масштабирования 2:00:39

Пытаясь нащупать выход из этого концептуального тупика, передовые исследовательские группы начинают обращать внимание на альтернативные подходы к моделированию мышления. В тексте интервью упоминаются работы таких известных специалистов, как Дилип Джордж (Dileep George), которые стремятся заложить в архитектуры новые принципы композициональности и абстракции, вдохновленные биологическими структурами мозга. Однако на пути традиционного экстенсивного подхода, исповедуемого крупными IT-корпорациями, встает непреодолимый барьер — так называемая перцептивная утечка (perceptual leakage).

Суть этой проблемы кроется в скрытом дефекте методологии тестирования современных систем: исследователи регулярно принимают способность модели зазубривать сложные комбинации признаков за истинное понимание сути вещей. Независимо от того, до каких астрономических масштабов увеличивается объем собираемых обучающих данных и насколько строго инженеры следуют знаменитым законам масштабирования (scaling laws), нейросети в своей фундаментальной основе остаются лишь инструментами для высокоэффективного следования паттернам (pattern following).

Когда очередной модель демонстрирует очередной скачок качества на популярных бенчмарках, это обусловлено тем, что тестовые задачи так или иначе пересекаются с элементами её гигантского обучающего датасета. Но как только система сталкивается с по-настоящему нестандартной задачей, структуру ответа на которую невозможно математически предсказать на основе прошлого опыта, вся магия больших данных улетучивается. Реальность такова, что современные большие языковые модели по-прежнему пасуют перед вызовами, требующими подлинной генерализации, поскольку их успехи жестко привязаны к конкретным узким доменам и специфическим типам задач (task-specific), за пределы которых они выйти неспособны.

🧠 Когнитивное разрешение и эволюция будущих ИИ-моделей 2:05:28

Развитие современных нейронных сетей движется по пути, который Франсуа Шолле (François Chollet) описывает через метафору «когнитивного разрешения». В то время как классические подходы часто упирались в ограничения архитектур или объемов вычислительных мощностей, современные модели демонстрируют способность к качественному скачку за счет масштабирования данных и совершенствования процессов обработки информации.

Масштабирование как инструмент восприятия деталей 2:06:41

Ключевой аспект будущих моделей заключается в том, как они «видят» структуру задачи. По мнению Франсуа Шолле, с ростом масштаба нейронные сети приобретают своего рода более высокое когнитивное разрешение. Это означает, что модель становится способной улавливать и анализировать тонкие, неочевидные детали в объектах или сетках данных, которые ранее оставались за пределами их «зрения».

В процессе работы с данными — будь то синтетическая генерация или обработка специфических задач — модели учатся сжимать информацию, отсекая лишнее и оставляя лишь суть. Франсуа Шолле отмечает, что возможность редуцировать сложные структуры до базовых элементов (например, снижение размерности до 30 параметров) позволяет модели эффективнее оперировать понятиями. Это постепенное повышение разрешения превращает модель из системы, просто «угадывающей» ответ, в структуру, которая осознанно оперирует концептами внутри себя.

Композиционность и переиспользование концептов 2:11:19

Человеческий интеллект фундаментально опирается на композиционность: мы не решаем каждую новую задачу с нуля, а переиспользуем ранее усвоенные концепты, комбинируя их для достижения результата. Франсуа Шолле подчеркивает, что именно этот принцип должен лечь в основу будущих моделей.

Переиспользование знаний: Модель, обладающая высокой композиционностью, способна выделять инвариантные части задачи и применять их в новых, ранее не встречавшихся контекстах.
Скептицизм как фильтр: Несмотря на успехи в обучении, Франсуа Шолле призывает сохранять здоровую долю скептицизма. Не каждая демонстрация высокой производительности модели является доказательством появления общего интеллекта — часто это результат оптимизации под конкретные параметры.

Ранее в разговоре участники касались вопросов активного вывода и различных методов нейросетевого программирования, однако именно сейчас становится ясно: подлинная эффективность модели зависит от того, насколько глубоко она способна «понимать» и связывать концепты, а не просто максимизировать метрики на тестовых наборах данных.

Взгляд в будущее и парадоксы обучения 2:13:00

Будущее ИИ-исследований, по мнению экспертов, лежит в области экспериментов с разнообразными подходами. Применение «тестового вывода» (test-time inference) требует баланса: избыточный объем вычислений в момент ответа может создать иллюзию компетентности, тогда как истинная способность к генерализации проявляется при столкновении с принципиально новыми типами задач.

Франсуа Шолле акцентирует внимание на том, что мы наблюдаем процесс постепенного перехода от «сырых» нейронных сетей к более структурированным системам, где «когнитивное разрешение» позволяет модели фокусироваться на том, что действительно важно для решения задачи. Это путь от накопления данных к созданию глубоко композиционных, универсальных инструментов, способных к реальной адаптации в динамической среде.