# Янник Килчер: OpenAI открывает GPT-3, а Нью-Йорк вводит аудит предвзятости ИИ

Источник: https://www.youtube.com/watch?v=8f5xIMStqF4
Канал: Yannic Kilcher
Опубликовано: 02.12.2021

---

В новом выпуске новостей машинного обучения Янник Килчер разбирает ключевые события индустрии: от долгожданного открытия доступа к API OpenAI до инноваций в генеративном искусстве от NVIDIA. Основное внимание уделено тому, как искусственный интеллект выходит за пределы исследовательских лабораторий и начинает регулироваться на законодательном уровне, а также его применению в повседневных задачах — от прогнозирования погоды до уборки столов в кафе.

## 🔓 OpenAI открывает двери: GPT-3 теперь доступен всем
[[JUMP:02:22]]

Компания OpenAI официально объявила об отмене списка ожидания для доступа к своему API [02:27]. Теперь любой разработчик может зарегистрироваться и получить доступ к мощностям языковых моделей, включая флагманскую GPT-3, модели Instruct (оптимизированные для выполнения инструкций) и Codex (специализирующуюся на генерации программного кода) [02:40].

Янник Килчер отмечает несколько важных аспектов этого решения:

*   **Конкуренция:** По мнению ведущего, этот шаг может быть продиктован не только технологической готовностью, но и давлением со стороны конкурентов, которые уже предоставляют доступ к своим API без длинных очередей [03:59].
*   **Эволюция промптов:** За время закрытого тестирования OpenAI накопила огромный опыт и обновила документацию, добавив множество примеров того, как правильно формулировать запросы (промпты) для получения качественных результатов [03:33].
*   **Контроль и цензура:** OpenAI сохраняет жесткий контроль над приложениями, выходящими «в свет». Компания требует проверки каждого продукта перед запуском, чтобы избежать нецелевого использования или генерации контента, который может негативно сказаться на репутации OpenAI [04:25].

Ведущий подчеркивает, что при создании бизнеса на базе API OpenAI разработчики должны учитывать этот фактор «ручного управления» со стороны поставщика технологии [04:54].

## 🎨 GauGAN2: От текста и набросков к фотореализму
[[JUMP:04:54]]

NVIDIA выпустила вторую итерацию своей модели GauGAN, использующей генеративно-состязательные сети (GAN) [05:06]. Если первая версия работала преимущественно с картами сегментации (раскрашивание областей как «небо», «трава», «камень»), то GauGAN2 делает качественный скачок вперед.

Ключевые возможности новой модели:

*   **Мультимодальность:** Модель может принимать на вход текст, эскизы, карты сегментации или базовые изображения — и комбинировать их в любых сочетаниях [05:25].
*   **Генерация по тексту:** Пользователь может просто написать «зимний горный пейзаж на закате», и нейросеть создаст соответствующее изображение [05:46].
*   **Интерактивное редактирование:** Килчер демонстрирует в веб-приложении, как можно сгенерировать пейзаж текстом, затем скопировать его в окно редактирования, автоматически получить карту сегментации и изменить время года, просто поменяв слово в запросе (например, «осень» на «весна») [09:01].

Несмотря на самокритичные замечания ведущего о его плохих навыках рисования, GauGAN2 успешно интерпретирует даже грубые мазки кистью, превращая их в детализированные ландшафты [07:42].

## 🤖 Everyday Robots: Роботы от Google X выходят в реальный мир
[[JUMP:09:44]]

Проект Everyday Robots, зародившийся в инкубаторе Google X, ставит своей целью создание роботов для выполнения повседневных, «скучных» задач [09:51]. В отличие от роботов Boston Dynamics, которые выполняют сложные акробатические трюки за счет жесткого программирования и инженерных усилий, эти машины учатся взаимодействовать с динамической и непредсказуемой средой.

Основные детали проекта:

*   **Тестирование в офисах:** Роботы уже используются в кафетериях Google для протирки столов и сортировки мусора [10:55].
*   **Скорость обучения:** По данным Wired, которые цитирует Килчер, роботы научились открывать двери менее чем за 10 часов [11:21]. В контексте обучения с подкреплением (Reinforcement Learning) на реальном «железе» это считается очень быстрым результатом.
*   **Обмен опытом:** Как только один робот осваивает навык, знания могут быть переданы всей флотилии машин [11:47].

## ⛈️ MetNet-2: Прогноз погоды с точностью до секунды
[[JUMP:12:14]]

Google AI представила модель MetNet-2 для сверхлокального прогнозирования осадков [12:26]. В то время как традиционные физические симуляции требуют огромных вычислительных мощностей и занимают около часа времени на один прогноз, нейросеть справляется менее чем за секунду [14:36].

Технические особенности MetNet-2:

*   **Горизонт планирования:** Модель предсказывает погоду на 12 часов вперед (предыдущая версия работала только на 6 часов) [12:40].
*   **Разрешение:** Прогноз делается для участков размером 2x2 километра [13:32].
*   **Архитектура:** Для обработки огромного контекста (система анализирует состояние атмосферы на гигантских территориях, чтобы предсказать дождь в конкретной точке) разработчики заменили слои внимания (attention) на дилатированные свертки (dilated convolutions), что повысило эффективность вычислений [13:59].

## ⚖️ Регулирование ИИ: Нью-Йорк против предвзятости при найме
[[JUMP:17:37]]

Нью-Йорк намерен стать первым городом, ограничивающим использование автоматизированных инструментов для подбора персонала [17:50]. Новое законодательство обяжет работодателей проводить ежегодный аудит на предмет предвзятости алгоритмов по расовому или гендерному признаку.

Янник Килчер выражает скепсис относительно реализации этого закона:

1.  **Проблема определений:** Что именно считается «дискриминацией»? Если модель не видит графу «раса», но принимает решение на основе косвенных признаков (коррелятов), виновата ли она? [18:30]
2.  **Двойные стандарты:** Ведущий утверждает, что мы склонны предъявлять к ИИ «недостижимые мастер-стандарты», забывая, что живые HR-менеджеры крайне субъективны, часто принимают решения на основе случайных факторов (например, пробелов в резюме) и не способны глубоко изучить тысячи заявок [20:04].
3.  **Слабость закона:** Критики законопроекта, на которых ссылается автор, считают его «размытым», так как он фактически лишь дублирует уже существующие нормы о гражданских правах [20:44].

## ♟️ Как AlphaZero понимает шахматы
[[JUMP:21:50]]

Команды DeepMind, Google Brain и экс-чемпион мира по шахматам Владимир Крамник опубликовали исследование о том, как нейросеть AlphaZero приобретает знания о шахматах [21:50].

Исследователи пытались понять, совпадают ли внутренние репрезентации нейросети с человеческими концепциями, которыми пользуются гроссмейстеры. С помощью факторизации матриц ученые проанализировали, какие структуры на доске ИИ считает важными. Килчер отмечает, что хотя сравнение стратегий AlphaZero с развитием человеческой шахматной мысли за последние 30 лет крайне любопытно, прямых и очевидных совпадений в «стиле» найти не так просто [23:13].

## 🛠️ Инструменты и DIY-проекты
[[JUMP:14:49]]

В выпуске упомянуто несколько прикладных и экспериментальных проектов:

*   **Анти-лай:** Проект на Arduino, который с помощью машинного обучения распознает лай собаки (через спектрограммы) и включает запись голоса хозяина, чтобы успокоить питомца [14:49].
*   **Mario Kart на реальной консоли:** Ютубер Stack Smashing научил ИИ играть в Mario Kart, считывая сигнал напрямую с видеовыхода консоли (через карту захвата) и передавая команды обратно в контроллер [15:52]. Чтобы модель лучше училась, автору пришлось водить машину «неестественно плавно» для снижения шума в данных [17:12].
*   **RuDALL-E Emojis:** Российская версия DALL-E, обученная генерировать изображения в стиле эмодзи по текстовому описанию [23:40].
*   **Open Code Blocks:** Альтернатива Jupyter Notebooks, где ячейки кода связаны не линейно, а в виде графа (DAG) [24:31].
*   **CodeGenX:** Открытая альтернатива GitHub Copilot на базе модели GPT-J [26:52].

В завершение выпуска Янник отметил награждение Пола Гинспарга, основателя архива препринтов **arXiv**, премией Фонда Эйнштейна (200 000 евро) [27:56]. Архив, созданный еще в 1991 году, стал фундаментом для открытого обмена научными знаниями в области машинного обучения и физики [28:37].