Янник Килчер: «DeepMind прогнозирует погоду лучше человека»

Обзор главных событий в мире машинного обучения: от прогноза погоды до цифрового Бетховенa 🤖

В свежем выпуске еженедельного дайджеста ML News Янник Килчер рассказывает о последних достижениях в области глубокого обучения, анализирует спорные публикации в СМИ и разбирает новые инструменты для исследователей. В центре внимания — прогресс DeepMind в краткосрочном прогнозировании погоды, новые подходы к обучению нейронных сетей и попытки воссоздать творчество великих композиторов и художников с помощью ИИ.

🌦 Прогноз погоды от DeepMind 0:28

Специалисты DeepMind представили систему, способную выполнять «наукастинг» (nowcasting) — сверхкраткосрочное прогнозирование погоды на ближайшие 1–2 часа. По мнению Килчера, долгосрочные модели уже достаточно эффективно моделируют глобальные физические процессы, однако предсказания на короткие промежутки времени до сих пор оставляют желать лучшего.

Технология: Разработанная модель является генеративной и по своей структуре напоминает GAN (генеративно-состязательную сеть). Она использует временной и пространственный дискриминаторы, а также функцию потерь на нерегулярность для генерации данных радара на два часа вперед.
Эффективность: Система превосходит базовые модели по метрикам и оценкам экспертов-климатологов.
Практическая значимость: DeepMind призывает отрасль перейти к метрикам, основанным на реальном воздействии (impact-based metrics). Это критически важно для сельского хозяйства, авиации и планирования мероприятий под открытым небом.

Исследователи опубликовали статью в журнале Nature, а также открыли доступ к набору данных и предобученной модели через Colab, чтобы любой желающий мог проверить, пойдет ли дождь в ближайший час.

📰 Критика «научной» журналистики 3:23

Янник Килчер выступил с резкой критикой колонки Джона Нотона в The Guardian, посвященной правдивости больших языковых моделей (LLM). Нотон утверждает, что «чем больше модели, тем больше они лгут», ссылаясь на бенчмарк TruthfulQA.

По мнению ведущего, автор статьи либо не разобрался в теме, либо намеренно вводит читателей в заблуждение. Килчер подчеркивает, что данный бенчмарк был специально спроектирован так, чтобы «ловить» модели на ложных убеждениях и неправильных представлениях, и его результаты нельзя интерпретировать однозначно. Ведущий с иронией отмечает, что именно так обычно строится «научная» журналистика: от узкоспециализированной статьи с неоднозначными формулировками к Twitter-тредам авторов, и наконец — к громким заголовкам в мейнстримных СМИ, игнорирующим детали.

🧠 Обучение сетей и оптимизация 6:13

В новой статье на arXiv обсуждается вопрос необходимости стохастического обучения для обобщающей способности нейросетей. Авторы исследования утверждают, что при правильной настройке и регуляризации полнопакетный градиентный спуск (full-batch gradient descent) может демонстрировать такую же эффективность, как и стохастический градиентный спуск (SGD).

Это ставит под сомнение многие теоретические объяснения того, почему нейронные сети работают столь успешно, так как многие из них опираются на случайную природу SGD. Тем не менее, Килчер отмечает, что для достижения успеха необходимо перенести неявную регуляризацию, присущую SGD, в область явной регуляризации.

🎨 ИИ в искусстве и музыке 11:28

Бетховен: Команда компьютерных ученых и музыковедов использовала ИИ для «завершения» 10-й симфонии Людвига ван Бетховена. Килчер называет этот проект скорее «компьютерно-человеческим сотрудничеством», так как итоговый результат потребовал огромного объема ручного инжиниринга, а не был просто «сгенерирован» машиной.
Рубенс: Компания Art Recognition проанализировала картину «Самсон и Далила» и с вероятностью 91,78% заявила, что она написана не Питером Паулем Рубенсом. Ведущий скептически относится к таким системам, отмечая их уязвимость к состязательным атакам (adversarial examples) и непрозрачность методологии.

👮 Surveillance: инструменты полиции 15:52

Обсуждается использование полицией США инструментов компании Shadow Dragon. Это ПО автоматически собирает и агрегирует данные из социальных сетей, что в сочетании с распознаванием лиц и государственными базами данных создает основу для «предиктивного полицейского надзора».

Компания отрицает создание инструментов для «предиктивной полиции», однако на их же сайте есть упоминания о способности предсказывать насилие. Килчер предупреждает: в будущем разграничение между личностями в разных соцсетях (например, LinkedIn и Twitter) будет стираться, и пользователям стоит исходить из того, что вся их онлайн-активность может быть собрана в один «аккуратный пакет».

🛠 Полезные библиотеки и инструменты 18:37

Hugging Face Infinity: Контейнер Docker, позволяющий довести время вывода (inference) моделей-трансформеров до 1–3 миллисекунд.
MiniHack: Новая «песочница» от Facebook AI Research для обучения с подкреплением на основе игры NetHack.
Plato XL: Модель от Baidu с 11 млрд параметров, специально обученная для длинных диалогов на английском и китайском языках.
TROC: Новый метод оптического распознавания текста от Microsoft, использующий трансформеры.
RAFT: Набор данных для задач few-shot обучения, где инструкции и примеры задаются на естественном языке.
Pass: Набор из 1,4 млн изображений для самообучения, не содержащий людей, лицензионных данных или персональной информации.