Янник Килчер: OpenAI открывает GPT-3, а Нью-Йорк вводит аудит предвзятости ИИ

В новом выпуске новостей машинного обучения Янник Килчер разбирает ключевые события индустрии: от долгожданного открытия доступа к API OpenAI до инноваций в генеративном искусстве от NVIDIA. Основное внимание уделено тому, как искусственный интеллект выходит за пределы исследовательских лабораторий и начинает регулироваться на законодательном уровне, а также его применению в повседневных задачах — от прогнозирования погоды до уборки столов в кафе.

🔓 OpenAI открывает двери: GPT-3 теперь доступен всем 2:22

Компания OpenAI официально объявила об отмене списка ожидания для доступа к своему API . Теперь любой разработчик может зарегистрироваться и получить доступ к мощностям языковых моделей, включая флагманскую GPT-3, модели Instruct (оптимизированные для выполнения инструкций) и Codex (специализирующуюся на генерации программного кода) .

Янник Килчер отмечает несколько важных аспектов этого решения:

Конкуренция: По мнению ведущего, этот шаг может быть продиктован не только технологической готовностью, но и давлением со стороны конкурентов, которые уже предоставляют доступ к своим API без длинных очередей .
Эволюция промптов: За время закрытого тестирования OpenAI накопила огромный опыт и обновила документацию, добавив множество примеров того, как правильно формулировать запросы (промпты) для получения качественных результатов .
Контроль и цензура: OpenAI сохраняет жесткий контроль над приложениями, выходящими «в свет». Компания требует проверки каждого продукта перед запуском, чтобы избежать нецелевого использования или генерации контента, который может негативно сказаться на репутации OpenAI .

Ведущий подчеркивает, что при создании бизнеса на базе API OpenAI разработчики должны учитывать этот фактор «ручного управления» со стороны поставщика технологии .

🎨 GauGAN2: От текста и набросков к фотореализму 4:54

NVIDIA выпустила вторую итерацию своей модели GauGAN, использующей генеративно-состязательные сети (GAN) . Если первая версия работала преимущественно с картами сегментации (раскрашивание областей как «небо», «трава», «камень»), то GauGAN2 делает качественный скачок вперед.

Ключевые возможности новой модели:

Мультимодальность: Модель может принимать на вход текст, эскизы, карты сегментации или базовые изображения — и комбинировать их в любых сочетаниях .
Генерация по тексту: Пользователь может просто написать «зимний горный пейзаж на закате», и нейросеть создаст соответствующее изображение .
Интерактивное редактирование: Килчер демонстрирует в веб-приложении, как можно сгенерировать пейзаж текстом, затем скопировать его в окно редактирования, автоматически получить карту сегментации и изменить время года, просто поменяв слово в запросе (например, «осень» на «весна») .

Несмотря на самокритичные замечания ведущего о его плохих навыках рисования, GauGAN2 успешно интерпретирует даже грубые мазки кистью, превращая их в детализированные ландшафты .

🤖 Everyday Robots: Роботы от Google X выходят в реальный мир 9:44

Проект Everyday Robots, зародившийся в инкубаторе Google X, ставит своей целью создание роботов для выполнения повседневных, «скучных» задач . В отличие от роботов Boston Dynamics, которые выполняют сложные акробатические трюки за счет жесткого программирования и инженерных усилий, эти машины учатся взаимодействовать с динамической и непредсказуемой средой.

Основные детали проекта:

Тестирование в офисах: Роботы уже используются в кафетериях Google для протирки столов и сортировки мусора .
Скорость обучения: По данным Wired, которые цитирует Килчер, роботы научились открывать двери менее чем за 10 часов . В контексте обучения с подкреплением (Reinforcement Learning) на реальном «железе» это считается очень быстрым результатом.
Обмен опытом: Как только один робот осваивает навык, знания могут быть переданы всей флотилии машин .

⛈️ MetNet-2: Прогноз погоды с точностью до секунды 12:14

Google AI представила модель MetNet-2 для сверхлокального прогнозирования осадков . В то время как традиционные физические симуляции требуют огромных вычислительных мощностей и занимают около часа времени на один прогноз, нейросеть справляется менее чем за секунду .

Технические особенности MetNet-2:

Горизонт планирования: Модель предсказывает погоду на 12 часов вперед (предыдущая версия работала только на 6 часов) .
Разрешение: Прогноз делается для участков размером 2x2 километра .
Архитектура: Для обработки огромного контекста (система анализирует состояние атмосферы на гигантских территориях, чтобы предсказать дождь в конкретной точке) разработчики заменили слои внимания (attention) на дилатированные свертки (dilated convolutions), что повысило эффективность вычислений .

⚖️ Регулирование ИИ: Нью-Йорк против предвзятости при найме 17:37

Нью-Йорк намерен стать первым городом, ограничивающим использование автоматизированных инструментов для подбора персонала . Новое законодательство обяжет работодателей проводить ежегодный аудит на предмет предвзятости алгоритмов по расовому или гендерному признаку.

Янник Килчер выражает скепсис относительно реализации этого закона:

Проблема определений: Что именно считается «дискриминацией»? Если модель не видит графу «раса», но принимает решение на основе косвенных признаков (коррелятов), виновата ли она?
Двойные стандарты: Ведущий утверждает, что мы склонны предъявлять к ИИ «недостижимые мастер-стандарты», забывая, что живые HR-менеджеры крайне субъективны, часто принимают решения на основе случайных факторов (например, пробелов в резюме) и не способны глубоко изучить тысячи заявок .
Слабость закона: Критики законопроекта, на которых ссылается автор, считают его «размытым», так как он фактически лишь дублирует уже существующие нормы о гражданских правах .

♟️ Как AlphaZero понимает шахматы 21:50

Команды DeepMind, Google Brain и экс-чемпион мира по шахматам Владимир Крамник опубликовали исследование о том, как нейросеть AlphaZero приобретает знания о шахматах .

Исследователи пытались понять, совпадают ли внутренние репрезентации нейросети с человеческими концепциями, которыми пользуются гроссмейстеры. С помощью факторизации матриц ученые проанализировали, какие структуры на доске ИИ считает важными. Килчер отмечает, что хотя сравнение стратегий AlphaZero с развитием человеческой шахматной мысли за последние 30 лет крайне любопытно, прямых и очевидных совпадений в «стиле» найти не так просто .

🛠️ Инструменты и DIY-проекты 14:49

В выпуске упомянуто несколько прикладных и экспериментальных проектов:

Анти-лай: Проект на Arduino, который с помощью машинного обучения распознает лай собаки (через спектрограммы) и включает запись голоса хозяина, чтобы успокоить питомца .
Mario Kart на реальной консоли: Ютубер Stack Smashing научил ИИ играть в Mario Kart, считывая сигнал напрямую с видеовыхода консоли (через карту захвата) и передавая команды обратно в контроллер . Чтобы модель лучше училась, автору пришлось водить машину «неестественно плавно» для снижения шума в данных .
RuDALL-E Emojis: Российская версия DALL-E, обученная генерировать изображения в стиле эмодзи по текстовому описанию .
Open Code Blocks: Альтернатива Jupyter Notebooks, где ячейки кода связаны не линейно, а в виде графа (DAG) .
CodeGenX: Открытая альтернатива GitHub Copilot на базе модели GPT-J .

В завершение выпуска Янник отметил награждение Пола Гинспарга, основателя архива препринтов arXiv, премией Фонда Эйнштейна (200 000 евро) . Архив, созданный еще в 1991 году, стал фундаментом для открытого обмена научными знаниями в области машинного обучения и физики .