Почему ChatGPT не может нарисовать полный бокал вина: урок философии от Алекса О’Коннора

Известный популяризатор философии Алекс О’Коннор в своем новом видео исследует странный технический сбой ChatGPT: нейросеть оказывается принципиально неспособна сгенерировать изображение бокала вина, наполненного до краев. Этот курьезный случай становится отправной точкой для глубокого анализа теории познания Дэвида Хьюма и поиска фундаментальных различий между человеческим разумом и искусственным интеллектом.

🍷 Парадокс наполненного бокала 0:00

Эксперимент Алекса О’Коннора начался с простого запроса к ChatGPT: создать изображение бокала красного вина, наполненного до краев . Несмотря на многократные уточнения, использование эпитетов «полный до краев», «почти переливающийся» и описаний поверхностного натяжения, ИИ раз за разом выдавал стандартную «барную» порцию — бокал, заполненный лишь наполовину .

По мнению ведущего, причина кроется в самом принципе обучения генеративных моделей:

ИИ не знает, что такое «лошадь» или «вино» в физическом смысле; он лишь распознает паттерны на основе миллионов размеченных изображений .
В обучающей выборке (датасете) практически отсутствуют фотографии винных бокалов, наполненных до самого верха, так как в реальности люди никогда так не наливают вино .
В результате ChatGPT просто не находит в своем «опыте» паттерна, соответствующего запросу, и подменяет его наиболее вероятным средним значением.

Проблема оказалась глубже, чем просто непонимание слова «полный». О’Коннор обнаружил, что нейросеть точно так же не справляется с запросами на «одну четверть бокала», «одну десятую» или «одну столовую ложку вина» . ИИ способен изобразить либо пустой бокал, либо бокал с нормальной порцией, но ничего промежуточного или экстремального.

🏛️ Эмпиризм Дэвида Хьюма в зеркале нейросетей 3:41

Для объяснения этого феномена Алекс О’Коннор обращается к трудам шотландского философа XVIII века Дэвида Хьюма, одного из главных представителей эмпиризма . По словам О’Коннора, принцип работы ChatGPT удивительным образом напоминает «хьюмовское» представление о человеческом мышлении.

Основные тезисы теории Хьюма, изложенные в «Трактате о человеческой природе»:

Впечатления (Impressions): Первичные данные, которые мы получаем через органы чувств здесь и сейчас (цвет, форма, звук) .
Идеи (Ideas): Более слабые и бледные копии впечатлений, возникающие в нашей памяти или воображении .
Принцип копирования: Хьюм утверждает, что любая наша мысль (идея) должна иметь первоисточник в виде чувственного опыта (впечатления). Слепой от рождения человек не может иметь идеи красного цвета .

О’Коннор проводит параллель: обучающие данные ChatGPT — это его «впечатления», а генерируемые им ответы и изображения — это его «идеи» . Подобно тому, как мы можем представить единорога, объединив идеи лошади и рога (сложная идея), ChatGPT создает изображение лошади в бассейне, комбинируя знакомые ему паттерны .

🧩 Проблема «недостающего оттенка синего» 10:10

Хьюм, будучи честным философом, сам предложил контрпример, который мог бы опровергнуть его теорию. Этот пример известен как «недостающий оттенок синего» .

Суть эксперимента:

Представьте градиент синего цвета, где один конкретный оттенок пропущен.
Сможет ли человек, никогда не видевший этого конкретного оттенка, вообразить его, основываясь только на соседних цветах в шкале?
Хьюм признает, что, скорее всего, человек справится с этой задачей .

Это создает логическое противоречие: если мы можем создать простую идею (конкретный оттенок) без прямого впечатления, то эмпиризм ложен. Удивительно, но Хьюм в своем трактате просто проигнорировал это, заявив, что случай слишком специфичен, чтобы менять из-за него общую теорию .

🔬 Проверка философии мощностями ИИ 14:32

Алекс О’Коннор решил использовать ChatGPT как лабораторию для проверки парадокса Хьюма. Поскольку нейросеть не может удалить данные из своего обучения, он попросил её симулировать эксперимент: создать градиент синего, «удалить» один оттенок, а затем попытаться воспроизвести его, глядя на соседей .

Результат оказался показательным:

ChatGPT успешно сгенерировал недостающий оттенок .
Однако на вопрос о том, как он это сделал, ИИ ответил: «Я визуально смешал два ближайших оттенка» .
О’Коннор делает вывод: в данном случае «недостающий синий» перестал быть простой идеей. Он стал сложной идеей, результатом смешивания двух других. Таким образом, эмпиризм Хьюма устоял — мы не создаем новое из ничего, мы комбинируем старое .

🧠 Концептуальная абстракция: где ИИ проигрывает человеку 17:07

Возвращаясь к бокалу вина, О’Коннор задается вопросом: почему ChatGPT может «смешать» цвета, но не может «смешать» уровни жидкости?

Ведущий предлагает техническое и философское объяснение:

Отсутствие понимания концепций: Для ИИ изображение бокала — это единый, неделимый паттерн («простое впечатление»), а не физический объект с объемом и массой .
Провал визуального смешивания: Если в Photoshop наложить изображение пустого бокала на изображение полного с прозрачностью 50%, мы получим не полупустой бокал, а «призрачное» вино в полном бокале . Для создания четверти бокала нужно понимать геометрию и физику, а не просто усреднять пиксели.
Абстрактное мышление: По мнению О’Коннора, человек способен на «концептуальную абстракцию» . Мы понимаем, что вино — это жидкость, которая заполняет пространство снизу вверх. Даже никогда не видев бокал, наполненный на 10%, мы можем дедуцировать, как это должно выглядеть.

В завершение Алекс О’Коннор предполагает, что ChatGPT на данный момент является «идеальным хьюмовским мыслителем» — существом, чей разум жестко ограничен рамками имеющегося опыта . Человеческий же разум, возможно, обладает врожденной способностью к абстракции, которая позволяет нам выходить за пределы когда-либо виденных «впечатлений».