Янник Кильчер: «Зачем спорить, если ИИ может решить 2+2 за нас?»

Yannic Kilcher 11,4 тыс. 11 мин 3 мин 06.08.2020
Главное

В разгар бесконечных споров в социальных сетях о том, чему равно два плюс два — четыре или пять, исследователь в области машинного обучения Янник Кильчер (Yannic Kilcher) предложил радикальное решение. Вместо того чтобы полагаться на субъективные человеческие суждения, он решил создать искусственный интеллект, который должен поставить точку в этом вопросе.

🛠️ Стек технологий и архитектура модели 0:00

Янник Кильчер начинает проект с выбора инструментов, подчеркивая, что для серьезных задач в области ИИ необходимо использовать библиотеку PyTorch . По мнению ведущего, проверка доступности CUDA (интерфейса для вычислений на видеокартах) является обязательным шагом, который он иронично называет «магией в мире ИИ» .

В качестве основы для своего эксперимента Кильчер выбирает архитектуру генеративно-состязательных сетей (GAN). Однако он вносит в классическую схему существенные изменения:

Кильчер отмечает, что использование архитектуры с названием «состязательная» (adversarial) может показаться опасным, но считает это оправданным риском для решения столь фундаментальной задачи .

📊 Подготовка данных: MNIST и «проблема плюса» 2:14

Для обучения модели был выбран классический датасет MNIST, содержащий тысячи образцов рукописных цифр . Кильчер называет его «крем-де-ла-крем» среди наборов данных, подчеркивая, что для компьютера это просто наборы чисел, но для человека они наполнены глубоким смыслом .

Процесс подготовки данных столкнулся с неожиданным препятствием:

В итоге каждый обучающий пример представляет собой склейку трех изображений: «двойка», «плюс» и еще одна «двойка», образуя входное полотно размером 28 на 84 пикселя .

🧠 Обучение и «оракул» истины 6:10

Одной из главных проблем стала разметка данных. Чтобы ИИ узнал, чему равно 2+2, ему нужны правильные ответы (метки). Кильчер отказывается нанимать аспирантов для этой работы, так как они тоже люди и могут ошибаться .

Вместо этого он использует «эвристический метод»:

В процессе оптимизации используется алгоритм Adam . Кильчер выбирает специфическую скорость обучения (learning rate) 3e-4, обосновывая это тем, что в этой записи есть и цифры, и буквы, и тире, что кажется ему «хорошим знаком» .

🚀 Финальный тест и обобщающая способность 10:12

После 9000 шагов обучения, в каждом из которых обрабатывалось по 64 примера , наступил этап тестирования. Кильчер использует тестовый набор данных MNIST, который модель никогда не видела в процессе обучения, чтобы проверить её «способность к обобщению» (generalization) .

Для финального прогона были выбраны две случайные рукописные двойки из тестовой выборки . Чтобы подчеркнуть важность момента, Янник Кильчер:

Видео завершается на моменте демонстрации финального результата, который, по словам Кильчера, должен стать «историческим событием для всего человечества» .

💬 Цитаты

«Мы собираемся заменить заблуждающихся, слабоумных людей искусственным интеллектом.»

Янник Кильчер 0:42

«В области ИИ нет места дискриминации, поэтому мы оставим дискриминатор в стороне.»

Янник Кильчер 7:32

«Это будет настолько искусственно и настолько интеллектуально, что вы не поверите.»

Янник Кильчер 1:49
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
GAN (Generative Adversarial Network)
Архитектура нейросетей, где две сети (генератор и дискриминатор) соревнуются друг с другом.
MNIST
Классический набор данных, состоящий из 70 000 изображений рукописных цифр.
CUDA
Платформа параллельных вычислений, позволяющая использовать графические процессоры NVIDIA для ускорения ИИ.
L2 Loss
Функция потерь, вычисляющая сумму квадратов разностей между предсказанным и реальным значением.
Обобщающая способность (Generalization)
Способность модели ИИ правильно работать с новыми данными, которые не использовались при обучении.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Янник Кильчер PyTorch MNIST GAN Adam optimizer