How we teach computers to understand pictures

Современное общество достигло беспрецедентного технологического прогресса: человечество отправляет людей на Луну, создаёт смартфоны, способные разговаривать, и настраивает под себя радиостанции. Однако самые передовые машины и компьютеры до сих пор сталкиваются с огромными трудностями при выполнении задачи, которая под силу даже трёхлетнему ребёнку — способности понимать то, что они видят. Известный учёный в области искусственного интеллекта Фей-Фей Ли в своём выступлении на платформе TED делится результатами многолетних исследований, объясняя, как её команда совершила прорыв в компьютерном зрении и почему этот путь оказался намного сложнее, чем предполагалось изначально.

👁️ Проблема компьютерного зрения: почему машинам тяжело видеть 0:15

Трёхлетний ребёнок без труда способен описать серию фотографий, распознавая кошку на кровати или мальчика, гладящего слона. Малыш уже является экспертом в понимании окружающего мира, тогда как современные программные алгоритмы всё ещё буксуют на этом пути. Как утверждает Фей-Фей Ли, компьютерное зрение сегодня представляет собой одну из самых передовых и потенциально революционных технологических областей в компьютерных науках.

В индустрии уже существуют прототипы беспилотных автомобилей, однако без «умного» зрения они не способны отличить смятый бумажный пакет на дороге, через который можно переехать, от камня того же размера, который необходимо объехать. Современная техника позволяет создавать мегапиксельные камеры, но она до сих пор не вернула зрение слепым. Дроны летают над огромными территориями, но им не хватает технологий для отслеживания изменений в дождевых лесах. Камеры безопасности установлены повсюду, но они не могут предупредить, если в бассейне тонет ребёнок. По мнению исследовательницы, коллективно, как общество, мы всё ещё слепы, потому что наши самые умные машины до сих пор не умеют видеть.

С технической точки зрения камеры фиксируют изображения, преобразуя свет в двумерный массив чисел, известных как пиксели. Сами по себе эти числа безжизненны и не несут смысла. Спикер подчёркивает разницу в восприятии информации:

Точно так же, как «слышать» не означает «слушать», «делать снимки» — не то же самое, что «видеть». Под зрением мы подразумеваем понимание.

Потребовалось 540 миллионов лет эволюции, чтобы живая природа создала зрительный аппарат человеческого мозга, причём большая часть этих усилий ушла на развитие именно обрабатывающих зон мозга, а не самих глаз. Зрение начинается в глазах, но по-настоящему оно происходит в мозгу.

🐈 Ограничения ранних моделей и кошачий тупик 4:22

Фей-Фей Ли посвятила обучению компьютеров зрению более 15 лет, начиная со времён своей докторской диссертации в Калифорнийском технологическом институте (Caltech) и продолжая в качестве руководителя Лаборатории зрения в Стэнфорде. Конечная цель её работы — научить машины идентифицировать объекты, определять трёхмерную геометрию, понимать взаимосвязи, эмоции, действия и намерения людей.

Первым шагом на этом пути стало обучение распознаванию объектов — фундаментальных строительных блоков визуального мира. В начале развития этой области исследователи пытались обучать алгоритмы, описывая объекты математическим языком. Например, компьютеру говорили, что кошка состоит из круглой головы, пухлого тела, двух заострённых ушей и длинного хвоста.

Однако этот подход быстро зашёл в тупик из-за бесконечного разнообразия реального мира:

Кошка может свернуться в клубок, полностью изменив свою визуальную форму.
Животное может быть частично скрыто другими предметами.
Домашние питомцы могут принимать самые нелепые и неожиданные позы, которые ломают жестко заданную математическую модель.

Даже обычное домашнее животное предлагает бесконечное количество вариаций для модели, а ведь в мире существуют миллионы других объектов.

📸 Революция больших данных: проект ImageNet 5:39

Примерно в 2007 году подход Фей-Фей Ли в корне изменился благодаря одному простому наблюдению: никто не учит маленьких детей видеть целенаправленно, они развивают этот навык через реальный жизненный опыт и примеры. Человеческий глаз делает снимок примерно каждые 200 миллисекунд. Это означает, что к трёхлетнему возрасту ребёнок успевает увидеть сотни миллионов картинок реального мира.

Вместо того чтобы фокусироваться исключительно на улучшении самих алгоритмов, исследовательница решила дать им такой же объём и качество тренировочных данных, которые ребёнок получает естественным путём. В 2007 году совместно с профессором Каем Ли из Принстонского университета был запущен амбициозный проект ImageNet.

Учёные обратились к интернету — крупнейшей сокровищнице изображений, созданной человечеством. Они скачали около миллиарда изображений и использовали краудсорсинговую платформу Amazon Mechanical Turk для их очистки и разметки. Проект ImageNet стал одним из крупнейших работодателей на этой площадке:

В работе приняли участие почти 50 000 сотрудников.
География работников охватила 167 стран мира.
Именно столько усилий потребовалось, чтобы зафиксировать лишь малую долю тех образов, которые детский мозг усваивает в первые годы жизни.

В 2007 году эта стратегия казалась коллегам Фей-Фей Ли сомнительной. Ей советовали заняться чем-то более полезным для получения постоянной профессорской ставки (tenure), а проект постоянно сталкивался с нехваткой финансирования. Спикер с улыбкой вспоминает, как шутила со своими аспирантами, что ей придётся снова открыть семейную химчистку, чтобы финансировать ImageNet — ведь именно так она зарабатывала на жизнь в студенческие годы.

Тем не менее, в 2009 году проект принёс свои плоды. Была создана беспрецедентная база данных:

Общий объём составил 15 миллионов изображений.
Картинки были распределены по 22 000 классов предметов и объектов.
Для примера, класс кошек включал более 62 000 изображений всех видов, пород и поз — от домашних до диких.

Проект не стал коммерческой тайной: весь датасет был выложен в открытый доступ для мирового исследовательского сообщества совершенно бесплатно.

🧠 Слияние данных и нейросетей: искусственный мозг оживает 9:41

Огромный массив информации из ImageNet идеально подошёл для особого класса алгоритмов машинного обучения — свёрточных нейронных сетей (CNN), основы которых заложили Кунихико Фукусима, Джефф Хинтон и Ян Лекун ещё в 1970–1980-х годах. Подобно биологическому мозгу, состоящему из миллиардов связанных нейронов, искусственная нейросеть состоит из узлов, организованных в иерархические слои.

Типичная нейросеть, задействованная в экспериментах команды, обладает колоссальными масштабами:

24 миллиона вычислительных узлов.
140 миллионов настраиваемых параметров.
15 миллиардов внутренних межнейронных соединений.

Благодаря сочетанию больших данных ImageNet и вычислительной мощности современных центральных (CPU) и графических (GPU) процессоров, свёрточные нейросети продемонстрировали ошеломляющие результаты, став доминирующей архитектурой в распознавании образов.

Компьютеры научились не просто определять наличие кошки, но и указывать её точное местоположение на снимке. Алгоритмы начали безошибочно сегментировать сложные сцены: выделять мальчика, плюшевого мишку, собаку и маленького воздушного змея на заднем плане. В ситуациях, когда машина не уверена в увиденном, её обучили выдавать более абстрактный, но безопасный ответ, имитируя человеческое поведение.

В ряде задач алгоритмы достигли поразительной точности, определяя конкретную марку, модель и год выпуска автомобиля. Применив эту технологию к миллионам изображений Google Street View в сотнях американских городов, исследователи обнаружили неожиданные закономерности. Как заявляет Фей-Фей Ли, статистика распределения стоимости автомобилей не только подтвердила очевидную связь с уровнем доходов домохозяйств, но и продемонстрировала высокую корреляцию с уровнем преступности в городах и даже с паттернами голосования на выборах по почтовым индексам.

🗣️ От отдельных слов к связным историям 12:43

Несмотря на успехи, распознавание отдельных объектов — это лишь первый шаг, напоминающий лепет ребёнка, который учится произносить существительные. Следующим важным этапом развития стало обучение компьютера общению связными предложениями. Чтобы научить машину генерировать текст на основе увиденного, потребовалось объединить визуальные данные с естественным языком, созданным людьми.

Команда разработала модель, которая сопоставляет визуальные фрагменты изображения со словами и фразами из предложений. Примерно за четыре месяца до выступления на TED учёным удалось объединить эти наработки и создать одну из первых систем компьютерного зрения, способную генерировать человеческие описания к фотографиям, которые она видит впервые. Система выдала точные формулировки: «Мужчина стоит рядом со слоном» и «Большой самолёт находится на взлётно-посадочной полосе аэропорта».

Тем не менее, алгоритмы всё ещё несовершенны и продолжают совершать курьёзные ошибки:

Увидев слишком много кошек в обучающей выборке, компьютер начинает искать их повсюду и может назвать одеяло на кровати «кошкой».
Если модель никогда не видела зубную щётку, она может перепутать её с бейсбольной битой в руках у мальчика.
Машина может детально описать мужчину, едущего на лошади по улице рядом со зданием, но она совершенно не понимает художественную ценность картины и красоту природы, так как её не учили искусству.

Основная сложность, по мнению Ли, заключается в переходе от базового распознавания к глубокому пониманию контекста. На фотографии с мальчиком и тортом компьютер видит лишь «человека, сидящего за столом с тортом». Он не знает, что это особый итальянский пасхальный торт, что мальчик одет в свою любимую футболку, привезённую отцом из Сиднея, и насколько этот ребёнок счастлив в данный момент. Этот мальчик — сын исследовательницы, Лео.

🔮 Будущее, в котором машины помогают видеть 16:39

Размышляя о визуальном интеллекте, Фей-Фей Ли признаётся, что постоянно думает о будущем своего сына и о том мире, в котором ему предстоит жить. По прогнозам спикера, когда машины обретут полноценное зрение, наша жизнь качественно изменится:

Врачи и медсёстры получат неутомимых электронных помощников для более точной диагностики и ухода за пациентами.
Автомобили на дорогах станут передвигаться гораздо умнее и безопаснее.
Роботы смогут вместо людей отправляться в зоны катастроф для поиска и спасения раненых.
С помощью зрячих машин человечество сможет открывать новые биологические виды, создавать улучшенные материалы и исследовать неизведанные фронтиры науки.

Постепенно наделяя машины зрением, люди сначала учат их видеть, а затем эти технологии начинают помогать нам самим воспринимать мир лучше. Впервые в истории человеческие глаза перестанут быть единственными исследователями и созерцателями нашей планеты. Мы не просто будем использовать интеллект машин, но и начнём полноценно сотрудничать с ними в тех сферах, которые сегодня трудно даже вообразить.

How we teach computers to understand pictures | Fei Fei Li