Meta и Google против OpenAI: главные ИИ-тренды мая

Yannic Kilcher 43,8 тыс. 19 мин 3 мин 10.05.2022
Главное

ИИ-новости: Прорыв Meta в языковых моделях, новые конкуренты OpenAI и «оживление» голоса 0:00

Мир машинного обучения продолжает стремительно развиваться, и в этом выпуске Янник Килчер представляет обзор главных технологических событий, включая релиз мощных языковых моделей, инновации в генерации изображений и развитие голосовых технологий. Основной акцент сделан на растущем влиянии open-source решений, которые начинают всерьез конкурировать с флагманскими продуктами OpenAI.

🌐 Meta бросает вызов GPT-3 1:57

Компания Meta представила OPT-175B — языковую модель с 175 миллиардами параметров, которая по размеру соответствует знаменитой GPT-3 от OpenAI. По словам исследователей, модель обладает сравнимой производительностью, при этом её разработка потребовала в семь раз меньше углеродных выбросов.

🖼️ Инновации в связке «текст-изображение» 5:06

Google Research представила модель CoCa (Contrastive Captioner), которая выступает сильным конкурентом для CLIP. Архитектура модели уникальна: она объединяет визуальный энкодер, унимодальный текстовый декодер и мультимодальный декодер.

Параллельно развивается проект DALL-E Mega, цель которого — создать полноценный open-source аналог модели DALL-E от OpenAI. Хотя модель всё ещё находится в стадии обучения, промежуточные результаты впечатляют, хотя автор отмечает, что достичь качества DALL-E 2 будет непросто из-за сложности архитектуры и высокого качества исходных данных, использованных OpenAI.

🎙️ TorToiSe TTS: Клонирование голоса и его последствия 10:11

Вышла версия 2.1 системы синтеза речи TorToiSe TTS, которая делает клонирование голоса пугающе качественным. Килчер продемонстрировал пример, созданный автором системы Джеймсом Беткером: ИИ озвучил текст, который ведущий никогда не произносил вслух, на основе обычного сообщения из Discord.

🛠️ Инструменты для разработчиков и образование 12:49

🚜 Агро-технологии и «хакинг» тракторов 16:59

John Deere трансформируется в одну из важнейших ИИ-компаний мира. Современные тракторы компании не только способны к автономному вождению (управляемому через приложение), но и могут с высокой точностью удалять сорняки во время обработки почвы.

Однако технологический прогресс вызывает сопротивление: проект TractorHacking борется со строгими ограничениями производителя на обновление электроники. Энтузиасты утверждают, что закрытость системы препятствует праву владельцев самостоятельно ремонтировать собственную технику.

💬 Цитаты

«Meta выпустила OPT-175B, но слышали ли вы что-нибудь об OPT-175A? Что они скрывают?»

Янник Килчер (цитирует Голдберга) 04:40

«Imagine just the possibilities that open up with the ability to just clone voices and let anyone say pretty much anything you want.»

Янник Килчер 11:05
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Zero-shot inference
Способность модели решать задачу без предварительного дообучения на конкретных примерах этой задачи.
Contrastive loss
Метод обучения, при котором модель учится сближать векторы похожих объектов (например, картинки и текста) и отдалять векторы разных.
Deepfake
Технология генерации или замены контента (голоса, видео), основанная на использовании нейросетей.
Vision Transformer (ViT)
Архитектура нейросети, применяющая механизм внимания к фрагментам изображения для его анализа.
📊 Цифры
🗓 Хронология
  1. 2 мая 2026 Модель DALL-E Mega была обучена на 29%.
  2. 4 мая 2026 Модель DALL-E Mega была обучена на 45%.
  3. 11 мая 2026 Дата начала следующего потока курса по Deep RL от Hugging Face.
⚖️ Другая сторона
Искусственный интеллект Meta OPT-175B Google Research TorToiSe TTS DALL-E Mega