Meta и Google против OpenAI: главные ИИ-тренды мая

ИИ-новости: Прорыв Meta в языковых моделях, новые конкуренты OpenAI и «оживление» голоса 0:00

Мир машинного обучения продолжает стремительно развиваться, и в этом выпуске Янник Килчер представляет обзор главных технологических событий, включая релиз мощных языковых моделей, инновации в генерации изображений и развитие голосовых технологий. Основной акцент сделан на растущем влиянии open-source решений, которые начинают всерьез конкурировать с флагманскими продуктами OpenAI.

🌐 Meta бросает вызов GPT-3 1:57

Компания Meta представила OPT-175B — языковую модель с 175 миллиардами параметров, которая по размеру соответствует знаменитой GPT-3 от OpenAI. По словам исследователей, модель обладает сравнимой производительностью, при этом её разработка потребовала в семь раз меньше углеродных выбросов.

Доступность: Код и предобученные модели доступны на GitHub, что делает их отличной альтернативой закрытому API от OpenAI.
Прозрачность: Meta опубликовала лог-бук обучения, в котором детально зафиксированы все этапы, технические сложности, аварийные ситуации и процесс перезапуска системы. Янник Килчер отмечает, что это дает ценное представление о реальной «внутренней кухне» обучения гигантских нейросетей, которую обычно скрывают за красивыми научными статьями.
Ограничения: Полная модель на 175 млрд параметров пока не находится в свободном доступе для широкой публики — её можно получить по специальному запросу для исследовательских целей.

🖼️ Инновации в связке «текст-изображение» 5:06

Google Research представила модель CoCa (Contrastive Captioner), которая выступает сильным конкурентом для CLIP. Архитектура модели уникальна: она объединяет визуальный энкодер, унимодальный текстовый декодер и мультимодальный декодер.

Техническое преимущество: Модель одновременно обучается через контрастивную потерю и задачу генерации подписей (captioning loss), что позволяет использовать её как для классификации изображений, так и для их текстового описания.
Результаты: Согласно представленным тестам, CoCa превосходит существующие аналоги, включая CLIP, в задачах классификации изображений с нулевым выстрелом (zero-shot) на наборе данных ImageNet.

Параллельно развивается проект DALL-E Mega, цель которого — создать полноценный open-source аналог модели DALL-E от OpenAI. Хотя модель всё ещё находится в стадии обучения, промежуточные результаты впечатляют, хотя автор отмечает, что достичь качества DALL-E 2 будет непросто из-за сложности архитектуры и высокого качества исходных данных, использованных OpenAI.

🎙️ TorToiSe TTS: Клонирование голоса и его последствия 10:11

Вышла версия 2.1 системы синтеза речи TorToiSe TTS, которая делает клонирование голоса пугающе качественным. Килчер продемонстрировал пример, созданный автором системы Джеймсом Беткером: ИИ озвучил текст, который ведущий никогда не произносил вслух, на основе обычного сообщения из Discord.

Этика и риски: Янник Килчер подчёркивает, что такие технологии ставят под сомнение доверие к любым аудиозаписям.
Защита: В репозиторий включён детектор, распознающий сгенерированный системой контент. Однако, по мнению Килчера, с учётом знаний о состязательных примерах (adversarial examples), обмануть такой детектор будет несложно.

🛠️ Инструменты для разработчиков и образование 12:49

Deep RL от Hugging Face: Запущен новый курс по глубокому обучению с подкреплением (Reinforcement Learning), который сочетает теорию с практической работой на современной библиотеке stable-baselines3.
Squirrel: Новая библиотека для эффективной загрузки, трансформации и подготовки датасетов для машинного обучения, показывающая лучшие результаты на бенчмарках по сравнению с аналогами.
PyScript: Инновационный проект, позволяющий запускать Python прямо внутри браузера с двусторонним взаимодействием с JavaScript.
Hugging NFT: Алексей Коршук выпустил инструмент для тренировки GAN-сетей на NFT-коллекциях, что значительно упрощает процесс, который ранее занимал недели.

🚜 Агро-технологии и «хакинг» тракторов 16:59

John Deere трансформируется в одну из важнейших ИИ-компаний мира. Современные тракторы компании не только способны к автономному вождению (управляемому через приложение), но и могут с высокой точностью удалять сорняки во время обработки почвы.

Однако технологический прогресс вызывает сопротивление: проект TractorHacking борется со строгими ограничениями производителя на обновление электроники. Энтузиасты утверждают, что закрытость системы препятствует праву владельцев самостоятельно ремонтировать собственную технику.