В новом выпуске новостей машинного обучения Янник Килчер разбирает ключевые события индустрии: от долгожданного открытия доступа к API OpenAI до инноваций в генеративном искусстве от NVIDIA. Основное внимание уделено тому, как искусственный интеллект выходит за пределы исследовательских лабораторий и начинает регулироваться на законодательном уровне, а также его применению в повседневных задачах — от прогнозирования погоды до уборки столов в кафе.
🔓 OpenAI открывает двери: GPT-3 теперь доступен всем 2:22
Компания OpenAI официально объявила об отмене списка ожидания для доступа к своему API . Теперь любой разработчик может зарегистрироваться и получить доступ к мощностям языковых моделей, включая флагманскую GPT-3, модели Instruct (оптимизированные для выполнения инструкций) и Codex (специализирующуюся на генерации программного кода) .
Янник Килчер отмечает несколько важных аспектов этого решения:
- Конкуренция: По мнению ведущего, этот шаг может быть продиктован не только технологической готовностью, но и давлением со стороны конкурентов, которые уже предоставляют доступ к своим API без длинных очередей .
- Эволюция промптов: За время закрытого тестирования OpenAI накопила огромный опыт и обновила документацию, добавив множество примеров того, как правильно формулировать запросы (промпты) для получения качественных результатов .
- Контроль и цензура: OpenAI сохраняет жесткий контроль над приложениями, выходящими «в свет». Компания требует проверки каждого продукта перед запуском, чтобы избежать нецелевого использования или генерации контента, который может негативно сказаться на репутации OpenAI .
Ведущий подчеркивает, что при создании бизнеса на базе API OpenAI разработчики должны учитывать этот фактор «ручного управления» со стороны поставщика технологии .
🎨 GauGAN2: От текста и набросков к фотореализму 4:54
NVIDIA выпустила вторую итерацию своей модели GauGAN, использующей генеративно-состязательные сети (GAN) . Если первая версия работала преимущественно с картами сегментации (раскрашивание областей как «небо», «трава», «камень»), то GauGAN2 делает качественный скачок вперед.
Ключевые возможности новой модели:
- Мультимодальность: Модель может принимать на вход текст, эскизы, карты сегментации или базовые изображения — и комбинировать их в любых сочетаниях .
- Генерация по тексту: Пользователь может просто написать «зимний горный пейзаж на закате», и нейросеть создаст соответствующее изображение .
- Интерактивное редактирование: Килчер демонстрирует в веб-приложении, как можно сгенерировать пейзаж текстом, затем скопировать его в окно редактирования, автоматически получить карту сегментации и изменить время года, просто поменяв слово в запросе (например, «осень» на «весна») .
Несмотря на самокритичные замечания ведущего о его плохих навыках рисования, GauGAN2 успешно интерпретирует даже грубые мазки кистью, превращая их в детализированные ландшафты .
🤖 Everyday Robots: Роботы от Google X выходят в реальный мир 9:44
Проект Everyday Robots, зародившийся в инкубаторе Google X, ставит своей целью создание роботов для выполнения повседневных, «скучных» задач . В отличие от роботов Boston Dynamics, которые выполняют сложные акробатические трюки за счет жесткого программирования и инженерных усилий, эти машины учатся взаимодействовать с динамической и непредсказуемой средой.
Основные детали проекта:
- Тестирование в офисах: Роботы уже используются в кафетериях Google для протирки столов и сортировки мусора .
- Скорость обучения: По данным Wired, которые цитирует Килчер, роботы научились открывать двери менее чем за 10 часов . В контексте обучения с подкреплением (Reinforcement Learning) на реальном «железе» это считается очень быстрым результатом.
- Обмен опытом: Как только один робот осваивает навык, знания могут быть переданы всей флотилии машин .
⛈️ MetNet-2: Прогноз погоды с точностью до секунды 12:14
Google AI представила модель MetNet-2 для сверхлокального прогнозирования осадков . В то время как традиционные физические симуляции требуют огромных вычислительных мощностей и занимают около часа времени на один прогноз, нейросеть справляется менее чем за секунду .
Технические особенности MetNet-2:
- Горизонт планирования: Модель предсказывает погоду на 12 часов вперед (предыдущая версия работала только на 6 часов) .
- Разрешение: Прогноз делается для участков размером 2x2 километра .
- Архитектура: Для обработки огромного контекста (система анализирует состояние атмосферы на гигантских территориях, чтобы предсказать дождь в конкретной точке) разработчики заменили слои внимания (attention) на дилатированные свертки (dilated convolutions), что повысило эффективность вычислений .
⚖️ Регулирование ИИ: Нью-Йорк против предвзятости при найме 17:37
Нью-Йорк намерен стать первым городом, ограничивающим использование автоматизированных инструментов для подбора персонала . Новое законодательство обяжет работодателей проводить ежегодный аудит на предмет предвзятости алгоритмов по расовому или гендерному признаку.
Янник Килчер выражает скепсис относительно реализации этого закона:
- Проблема определений: Что именно считается «дискриминацией»? Если модель не видит графу «раса», но принимает решение на основе косвенных признаков (коррелятов), виновата ли она?
- Двойные стандарты: Ведущий утверждает, что мы склонны предъявлять к ИИ «недостижимые мастер-стандарты», забывая, что живые HR-менеджеры крайне субъективны, часто принимают решения на основе случайных факторов (например, пробелов в резюме) и не способны глубоко изучить тысячи заявок .
- Слабость закона: Критики законопроекта, на которых ссылается автор, считают его «размытым», так как он фактически лишь дублирует уже существующие нормы о гражданских правах .
♟️ Как AlphaZero понимает шахматы 21:50
Команды DeepMind, Google Brain и экс-чемпион мира по шахматам Владимир Крамник опубликовали исследование о том, как нейросеть AlphaZero приобретает знания о шахматах .
Исследователи пытались понять, совпадают ли внутренние репрезентации нейросети с человеческими концепциями, которыми пользуются гроссмейстеры. С помощью факторизации матриц ученые проанализировали, какие структуры на доске ИИ считает важными. Килчер отмечает, что хотя сравнение стратегий AlphaZero с развитием человеческой шахматной мысли за последние 30 лет крайне любопытно, прямых и очевидных совпадений в «стиле» найти не так просто .
🛠️ Инструменты и DIY-проекты 14:49
В выпуске упомянуто несколько прикладных и экспериментальных проектов:
- Анти-лай: Проект на Arduino, который с помощью машинного обучения распознает лай собаки (через спектрограммы) и включает запись голоса хозяина, чтобы успокоить питомца .
- Mario Kart на реальной консоли: Ютубер Stack Smashing научил ИИ играть в Mario Kart, считывая сигнал напрямую с видеовыхода консоли (через карту захвата) и передавая команды обратно в контроллер . Чтобы модель лучше училась, автору пришлось водить машину «неестественно плавно» для снижения шума в данных .
- RuDALL-E Emojis: Российская версия DALL-E, обученная генерировать изображения в стиле эмодзи по текстовому описанию .
- Open Code Blocks: Альтернатива Jupyter Notebooks, где ячейки кода связаны не линейно, а в виде графа (DAG) .
- CodeGenX: Открытая альтернатива GitHub Copilot на базе модели GPT-J .
В завершение выпуска Янник отметил награждение Пола Гинспарга, основателя архива препринтов arXiv, премией Фонда Эйнштейна (200 000 евро) . Архив, созданный еще в 1991 году, стал фундаментом для открытого обмена научными знаниями в области машинного обучения и физики .