# Meta и Google против OpenAI: главные ИИ-тренды мая

Источник: https://www.youtube.com/watch?v=pwSnC8jlh50
Канал: Yannic Kilcher
Опубликовано: 10.05.2022

---

## ИИ-новости: Прорыв Meta в языковых моделях, новые конкуренты OpenAI и «оживление» голоса
[[JUMP:0:00]]

Мир машинного обучения продолжает стремительно развиваться, и в этом выпуске Янник Килчер представляет обзор главных технологических событий, включая релиз мощных языковых моделей, инновации в генерации изображений и развитие голосовых технологий. Основной акцент сделан на растущем влиянии open-source решений, которые начинают всерьез конкурировать с флагманскими продуктами OpenAI.

## 🌐 Meta бросает вызов GPT-3
[[JUMP:1:57]]

Компания Meta представила OPT-175B — языковую модель с 175 миллиардами параметров, которая по размеру соответствует знаменитой GPT-3 от OpenAI. По словам исследователей, модель обладает сравнимой производительностью, при этом её разработка потребовала в семь раз меньше углеродных выбросов.

* **Доступность:** Код и предобученные модели доступны на GitHub, что делает их отличной альтернативой закрытому API от OpenAI.
* **Прозрачность:** Meta опубликовала лог-бук обучения, в котором детально зафиксированы все этапы, технические сложности, аварийные ситуации и процесс перезапуска системы. Янник Килчер отмечает, что это дает ценное представление о реальной «внутренней кухне» обучения гигантских нейросетей, которую обычно скрывают за красивыми научными статьями.
* **Ограничения:** Полная модель на 175 млрд параметров пока не находится в свободном доступе для широкой публики — её можно получить по специальному запросу для исследовательских целей.

## 🖼️ Инновации в связке «текст-изображение»
[[JUMP:5:06]]

Google Research представила модель CoCa (Contrastive Captioner), которая выступает сильным конкурентом для CLIP. Архитектура модели уникальна: она объединяет визуальный энкодер, унимодальный текстовый декодер и мультимодальный декодер.

* **Техническое преимущество:** Модель одновременно обучается через контрастивную потерю и задачу генерации подписей (captioning loss), что позволяет использовать её как для классификации изображений, так и для их текстового описания.
* **Результаты:** Согласно представленным тестам, CoCa превосходит существующие аналоги, включая CLIP, в задачах классификации изображений с нулевым выстрелом (zero-shot) на наборе данных ImageNet.

Параллельно развивается проект DALL-E Mega, цель которого — создать полноценный open-source аналог модели DALL-E от OpenAI. Хотя модель всё ещё находится в стадии обучения, промежуточные результаты впечатляют, хотя автор отмечает, что достичь качества DALL-E 2 будет непросто из-за сложности архитектуры и высокого качества исходных данных, использованных OpenAI.

## 🎙️ TorToiSe TTS: Клонирование голоса и его последствия
[[JUMP:10:11]]

Вышла версия 2.1 системы синтеза речи TorToiSe TTS, которая делает клонирование голоса пугающе качественным. Килчер продемонстрировал пример, созданный автором системы Джеймсом Беткером: ИИ озвучил текст, который ведущий никогда не произносил вслух, на основе обычного сообщения из Discord.

* **Этика и риски:** Янник Килчер подчёркивает, что такие технологии ставят под сомнение доверие к любым аудиозаписям.
* **Защита:** В репозиторий включён детектор, распознающий сгенерированный системой контент. Однако, по мнению Килчера, с учётом знаний о состязательных примерах (adversarial examples), обмануть такой детектор будет несложно.

## 🛠️ Инструменты для разработчиков и образование
[[JUMP:12:49]]

* **Deep RL от Hugging Face:** Запущен новый курс по глубокому обучению с подкреплением (Reinforcement Learning), который сочетает теорию с практической работой на современной библиотеке `stable-baselines3`.
* **Squirrel:** Новая библиотека для эффективной загрузки, трансформации и подготовки датасетов для машинного обучения, показывающая лучшие результаты на бенчмарках по сравнению с аналогами.
* **PyScript:** Инновационный проект, позволяющий запускать Python прямо внутри браузера с двусторонним взаимодействием с JavaScript.
* **Hugging NFT:** Алексей Коршук выпустил инструмент для тренировки GAN-сетей на NFT-коллекциях, что значительно упрощает процесс, который ранее занимал недели.

## 🚜 Агро-технологии и «хакинг» тракторов
[[JUMP:16:59]]

John Deere трансформируется в одну из важнейших ИИ-компаний мира. Современные тракторы компании не только способны к автономному вождению (управляемому через приложение), но и могут с высокой точностью удалять сорняки во время обработки почвы.

Однако технологический прогресс вызывает сопротивление: проект TractorHacking борется со строгими ограничениями производителя на обновление электроники. Энтузиасты утверждают, что закрытость системы препятствует праву владельцев самостоятельно ремонтировать собственную технику.