Янник Килчер: «DeepMind прогнозирует погоду лучше человека»

Yannic Kilcher 21,5 тыс. 27 мин 3 мин 07.10.2021
Главное

Обзор главных событий в мире машинного обучения: от прогноза погоды до цифрового Бетховенa 🤖

В свежем выпуске еженедельного дайджеста ML News Янник Килчер рассказывает о последних достижениях в области глубокого обучения, анализирует спорные публикации в СМИ и разбирает новые инструменты для исследователей. В центре внимания — прогресс DeepMind в краткосрочном прогнозировании погоды, новые подходы к обучению нейронных сетей и попытки воссоздать творчество великих композиторов и художников с помощью ИИ.

🌦 Прогноз погоды от DeepMind 0:28

Специалисты DeepMind представили систему, способную выполнять «наукастинг» (nowcasting) — сверхкраткосрочное прогнозирование погоды на ближайшие 1–2 часа. По мнению Килчера, долгосрочные модели уже достаточно эффективно моделируют глобальные физические процессы, однако предсказания на короткие промежутки времени до сих пор оставляют желать лучшего.

Исследователи опубликовали статью в журнале Nature, а также открыли доступ к набору данных и предобученной модели через Colab, чтобы любой желающий мог проверить, пойдет ли дождь в ближайший час.

📰 Критика «научной» журналистики 3:23

Янник Килчер выступил с резкой критикой колонки Джона Нотона в The Guardian, посвященной правдивости больших языковых моделей (LLM). Нотон утверждает, что «чем больше модели, тем больше они лгут», ссылаясь на бенчмарк TruthfulQA.

По мнению ведущего, автор статьи либо не разобрался в теме, либо намеренно вводит читателей в заблуждение. Килчер подчеркивает, что данный бенчмарк был специально спроектирован так, чтобы «ловить» модели на ложных убеждениях и неправильных представлениях, и его результаты нельзя интерпретировать однозначно. Ведущий с иронией отмечает, что именно так обычно строится «научная» журналистика: от узкоспециализированной статьи с неоднозначными формулировками к Twitter-тредам авторов, и наконец — к громким заголовкам в мейнстримных СМИ, игнорирующим детали.

🧠 Обучение сетей и оптимизация 6:13

В новой статье на arXiv обсуждается вопрос необходимости стохастического обучения для обобщающей способности нейросетей. Авторы исследования утверждают, что при правильной настройке и регуляризации полнопакетный градиентный спуск (full-batch gradient descent) может демонстрировать такую же эффективность, как и стохастический градиентный спуск (SGD).

Это ставит под сомнение многие теоретические объяснения того, почему нейронные сети работают столь успешно, так как многие из них опираются на случайную природу SGD. Тем не менее, Килчер отмечает, что для достижения успеха необходимо перенести неявную регуляризацию, присущую SGD, в область явной регуляризации.

🎨 ИИ в искусстве и музыке 11:28

👮 Surveillance: инструменты полиции 15:52

Обсуждается использование полицией США инструментов компании Shadow Dragon. Это ПО автоматически собирает и агрегирует данные из социальных сетей, что в сочетании с распознаванием лиц и государственными базами данных создает основу для «предиктивного полицейского надзора».

Компания отрицает создание инструментов для «предиктивной полиции», однако на их же сайте есть упоминания о способности предсказывать насилие. Килчер предупреждает: в будущем разграничение между личностями в разных соцсетях (например, LinkedIn и Twitter) будет стираться, и пользователям стоит исходить из того, что вся их онлайн-активность может быть собрана в один «аккуратный пакет».

🛠 Полезные библиотеки и инструменты 18:37

💬 Цитаты

«Если кто-то приводит это как пример того, насколько плохи большие языковые модели, не упоминая всех этих нюансов, он либо не знает, либо хочет вас обмануть.»

Янник Килчер 04:15

«В будущем разница между тем, как вы ведете себя в Twitter и в LinkedIn, будет все больше стираться.»

Янник Килчер 18:13
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Наукастинг (Nowcasting)
Сверхкраткосрочный прогноз погоды на ближайшие 1–2 часа.
GAN (Generative Adversarial Network)
Тип нейросетей, где две модели (генератор и дискриминатор) соревнуются друг с другом.
SGD (Stochastic Gradient Descent)
Алгоритм оптимизации нейронных сетей, основанный на случайном выборе данных.
Few-shot learning
Метод обучения модели, при котором она должна выполнить задачу, получив лишь несколько примеров.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DeepMind Yannic Kilcher Людвиг ван Бетховен TruthfulQA Shadow Dragon