Янник Килчер о «аппаратной лотерее»: почему побеждают только удобные технологии

🎰 Феномен «аппаратной лотереи»: почему побеждают не лучшие идеи, а удобные 1:17

В основе современных исследований в области машинного обучения лежит парадокс: разработчики алгоритмов часто игнорируют «железо», хотя именно оно определяет судьбу технологий. Янник Килчер в своем обзоре статьи Сары Хукер из Google Brain разбирает понятие «аппаратной лотереи» (Hardware Lottery). Согласно этой концепции, исследовательская идея может победить не потому, что она фундаментально лучше альтернатив, а потому, что она оказалась удачно совместимой с доступными программными и аппаратными ресурсами.

🕰 Истоки «общего назначения» 11:21

Исторически развитие вычислительной техники прошло путь от специализированных устройств к универсальным архитектурам.

Ранние ЭВМ: Первые машины создавались для решения узких задач, так как электроника была дорогой, а кросс-платформенного софта не существовало.
Эпоха CPU: Поворотным моментом стала статья Гордона Мура в 1969 году, предсказавшая удвоение количества транзисторов каждые два года (закон Мура).
Смерть специализации: Индустрия сосредоточилась на универсальных CPU, так как любое специализированное решение быстро устаревало перед лицом очередного поколения процессоров общего назначения.

По мнению автора канала, из-за этого фокуса на CPU исследователи машинного обучения начали воспринимать оборудование как «черный ящик» и неизбежные издержки, а не как гибкий инструмент, который можно адаптировать под алгоритм.

📉 Затерянные десятилетия нейросетей 18:06

Нейронные сети, ставшие мейнстримом сегодня, десятилетиями находились в тени из-за несоответствия «железу».

Фундамент: Алгоритмы обратного распространения ошибки (backpropagation) были изобретены еще в 1963 году.
Бутылочное горлышко: Процессоры того времени страдали от «узкого места фон Неймана» — ограниченного канала между памятью и CPU, что делало обучение нейросетей крайне медленным.
Случайный успех: По словам Килчера, успех нейросетей — это отчасти «аппаратная удача». Графические процессоры (GPU), созданные для видеоигр в 1970-х, идеально подошли для матричных вычислений, необходимых нейронным сетям.

Без этого случайного появления GPU, приспособленных для параллельных вычислений, прогресс в области глубокого обучения мог бы затянуться еще дольше.

⛓ Ловушка обратной связи и будущее технологий 29:04

Автор обзора отмечает, что с каждым годом «аппаратная лотерея» становится всё более серьезной преградой.

Эффект накопления: Каждое новое решение в дизайне железа или софта строится на предыдущем. Откатиться назад и «переиграть» дерево решений становится невероятно дорого.
Разрыв между победителем и проигравшим: Если идея проиграла лотерею (как, например, Capsule Networks), то с каждым годом возвращение к ней требует всё больших вложений, так как текущая инфраструктура всё дальше уходит в сторону победивших решений.
Масштабирование: Исследователи тратят миллионы долларов на увеличение параметров моделей, например, в GPT-3 ($12 млн на обучение), что является попыткой пробить «потолок» на уже выбранном пути.

Янник Килчер соглашается с тезисом статьи о том, что необходимо искать пути избежания таких лотерей, но делает важную оговорку: он считает, что риск «лотерейности» существует на любом этапе принятия решений, будь то выбор теории, языка программирования или архитектуры софта. Килчер полагает, что борьба с этим феноменом потребует революции в инструментах разработки, которые могли бы заранее предсказывать, для какого оборудования тот или иной алгоритм станет наиболее эффективным.