Цитаты — Янник Килчер

«

Чем меньше у вас размеченных данных, тем важнее становится использование больших моделей.

27:28 · Парадокс SimCLRv2: как обучить огромную нейросеть на 10% данных

«

Это выглядит как готовый шаблон, который авторы просто копируют из статьи в статью.

36:38 · Парадокс SimCLRv2: как обучить огромную нейросеть на 10% данных

«

Если ваш посевной раунд меньше 7 триллионов долларов — идите домой, даже не пытайтесь.

9:21 · От 7 триллионов Альтмана до ядерных ударов GPT-4: большой обзор новостей ИИ от Янника Килхера

«

Стратегия открытого ПО от Meta используется для того, чтобы подорвать бизнес конкурентов, таких как OpenAI.

19:00 · От 7 триллионов Альтмана до ядерных ударов GPT-4: большой обзор новостей ИИ от Янника Килхера

«

Можно улучшить логику модели, просто приказав ей делать больше шагов.

1:22:58 · От 7 триллионов Альтмана до ядерных ударов GPT-4: большой обзор новостей ИИ от Янника Килхера

«

Поскольку веса между шагами роутирования общие, во время инференса можно увеличить число итераций.

37:05 · Как нейросеть Slot Attention от Google Brain учится разделять объекты на фото

«

Формулировка «мы оба тестировали на одной GPU, но у нас батч больше» кажется ведущему некорректным преувеличением.

35:20 · Как нейросеть Slot Attention от Google Brain учится разделять объекты на фото

«

Если у нас ограниченные вычисления, мы не можем упаковать бесконечную информацию внутрь.

06:00 · ∞-former: Как работает трансформер с «неограниченной» памятью

«

В конечном итоге это концептуально не отличается от модели LSTM.

07:40 · ∞-former: Как работает трансформер с «неограниченной» памятью

«

Это как жить с HR-персоналом, контролирующим каждый твой шаг. Они в тюрьме в каждом уголке вашей жизни, ад на земле.

21:00 · Янник Килчер о ChatGPT: «Джейлбрейки в мире дистопии»

«

В современных трансформерах эта матрица имеет низкий ранг, и именно это эксплуатирует данная статья.

07:46 · Linformer: как аппроксимация матриц низкого ранга ускоряет трансформеры

«

Linformer работает на уровне стандартных трансформеров, будучи при этом гораздо более эффективным по памяти и времени.

08:26 · Linformer: как аппроксимация матриц низкого ранга ускоряет трансформеры

«

Мы должны открыто осуждать OpenAI за это. Перед нами больше не исследовательская организация, а обычная софтверная лавка.

01:47 · Технический разбор GPT-4: скрытые параметры, законы масштабирования и риски для бизнеса

«

Человеческий фидбек не делает модель умнее, он просто избавляет вас от сложного промпт-инжиниринга.

15:02 · Технический разбор GPT-4: скрытые параметры, законы масштабирования и риски для бизнеса

«

Если вы внедряете программное обеспечение, вы несете ответственность за то, что оно делает.

20:43 · Янник Килчер: «Чат-боты — это новая зона юридической ответственности»

«

Это безумная скорость — 532 токена в секунду.

3:56 · Янник Килчер: «Чат-боты — это новая зона юридической ответственности»

«

Поскольку матричные умножения лежат в основе практически всей науки, ускорение на 10, 20 или даже один процент в этой области — это огромный успех.

00:25 · AlphaTensor: Как DeepMind ускоряет вычисления с помощью ИИ

«

AlphaTensor не знает, что такое V100, но благодаря обучению с подкреплением система находит алгоритмы, которые работают быстрее на конкретном железе.

50:03 · AlphaTensor: Как DeepMind ускоряет вычисления с помощью ИИ

«

Этот метод предлагает довольно простую идею решения проблемы, возникающей, когда вы пытаетесь запустить генеративную модель бесконечно долго.

00:15 · StreamingLLM: как заставить языковые модели работать бесконечно

«

В практике модель просто сбрасывает всё лишнее внимание на первые токены.

12:36 · StreamingLLM: как заставить языковые модели работать бесконечно

«

Внимание переносится на первую часть и становится своего рода фиксированным.

35:17 · Быстрее EfficientNet в 4.5 раза: Янник Килчер объясняет устройство LambdaLayers

«

Позиционные кодирования фактически важнее в экспериментах: если их убрать, ничего не работает.

46:54 · Быстрее EfficientNet в 4.5 раза: Янник Килчер объясняет устройство LambdaLayers

«

Мы собираемся пересечь все эти языковые и технологические границы, чтобы это произошло.

05:23 · Янник Килчер: «Как создать потоковый бэкенд для LLM на Rust»

«

Тесты — это для слабаков, для слабых людей. Шучу, тесты — это нормально.

25:39 · Янник Килчер: «Как создать потоковый бэкенд для LLM на Rust»

«

Цель здесь не в том, чтобы получить лучшую модель в мире, а в том, чтобы понять, как далеко мы можем зайти с обучением без учителя.

05:37 · V-JEPA: Как нейросети учатся понимать видео по принципу человека

«

V-JEPA просто не заботится о пикселях. Она работает исключительно в латентном пространстве.

07:41 · V-JEPA: Как нейросети учатся понимать видео по принципу человека

«

Flow Matching обобщает этот процесс: если задать потоки определенным образом, вы в точности вернетесь к диффузии.

09:47 · Янник Кильхер объяснил математику Flow Matching в Stable Diffusion 3

«

Вместо агрегирования данных перед обучением, мы можем обучать нейросеть предсказывать условное векторное поле для отдельной точки.

32:04 · Янник Кильхер объяснил математику Flow Matching в Stable Diffusion 3

«

Я сильно верю, и я повторял это последние четыре года, что языковые модели с возможностью динамического извлечения контекста станут следующим большим прорывом.

01:20 · Янник Килчер запустил платформу OpenAssistant для создания открытого аналога ChatGPT

«

Мы задействуем синтетические наборы данных, но я должен сказать, что ничто не способно заменить живой человеческий ввод.

03:21 · Янник Килчер запустил платформу OpenAssistant для создания открытого аналога ChatGPT

«

Перед вами самая хайповая модель на данный момент.

00:15 · Как и почему BERT произвел революцию в понимании языка нейросетями

«

Удивительно, что вы не просто обходите конкурентов, а обходите их с таким огромным отрывом.

38:12 · Как и почему BERT произвел революцию в понимании языка нейросетями

«

Трансформер может динамически и селективно смотреть на отдельные элементы прошлого, но вы платите за это квадратичной сложностью.

01:47 · Mamba против Transformers: как селективные пространства состояний решают проблему длинного контекста

«

Mamba — это не просто SSM, это комбинация селективности с 1D-свертками, проекциями и механизмами гейтинга.

18:02 · Mamba против Transformers: как селективные пространства состояний решают проблему длинного контекста

«

Во время обучения Mamba похожа на Трансформер, а во время инференса — на RNN.

10:36 · Mamba против Transformers: как селективные пространства состояний решают проблему длинного контекста

«

Если гистограмма очень пиковая вокруг нуля, сеть хорошая. Если она размазана — сеть плохая.

08:52 · Янник Килчер: «Поиск нейросетвых архитектур за 2 секунды без обучения возможен»

«

Мы автоматизируем дизайн нейросетей, но сама автоматизация стала безумно дорогой.

06:27 · Янник Килчер: «Поиск нейросетвых архитектур за 2 секунды без обучения возможен»

«

Intelligence is the efficiency with which you transform new data into new skills.

03:22 · Ян Лекун: «Самообучение — это темная материя интеллекта»

«

Deep neural networks are different because we just feed in the training data as is and the deep neural network will automatically discover the features.

2:13 · Янник Кильхер: «Любая модель, обученная градиентным спуском — ядерная машина»

«

Deep networks learned by the standard gradient descent algorithm are in fact mathematically approximately equivalent to kernel machines.

2:38 · Янник Кильхер: «Любая модель, обученная градиентным спуском — ядерная машина»

«

Это не про современный уровень точности (state-of-the-art) в классификации цифр, это про нейронные клеточные автоматы.

01:20 · Нейронные клеточные автоматы: как MNIST классифицирует сам себя по мнению Килчера

«

Биологическая логика в том, что все клетки следуют одним и тем же правилам, но за счет их общения возникают глобальные паттерны.

11:52 · Нейронные клеточные автоматы: как MNIST классифицирует сам себя по мнению Килчера

«

Формат журнала Distill — это будущее науки, вместо восьмистраничных PDF-файлов вы получаете интерактивное демо.

29:12 · Нейронные клеточные автоматы: как MNIST классифицирует сам себя по мнению Килчера

«

Поскольку структура белка полностью определяется его аминокислотной цепью... должно быть возможно вычислить эту форму программно.

11:56 · DeepMind: как архитектура трансформеров решила задачу 50-летней давности

«

Похоже, они заменили сверточные сети — теперь их лучший друг это трансформер.

51:32 · DeepMind: как архитектура трансформеров решила задачу 50-летней давности

«

Этот алгоритм применим практически везде, где есть игра для двух игроков с нулевой суммой и несовершенной или совершенной информацией.

18:16 · Как алгоритм ReBeL научился обыгрывать людей в покер с помощью теории игр

«

В играх с несовершенной информацией ценность узла также зависит от того, что произошло ранее по течению.

15:15 · Как алгоритм ReBeL научился обыгрывать людей в покер с помощью теории игр

«

Эта работа выбрасывает почти всё из обучения с подкреплением в офлайн-сеттинге и заменяет это простым моделированием последовательностей.

00:14 · Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer

«

Трансформеры почти безграничны в своей способности поглощать данные и учиться, вопрос лишь в том, помещается ли задача в контекст.

27:08 · Как превратить обучение с подкреплением в задачу для GPT: разбор Decision Transformer

«

Система имеет эмерджентное свойство: она не обучалась тому, что такое собака, и не обучалась сегментации, но её карты внимания четко отслеживают объекты.

00:26 · Как Facebook AI научила нейросети «видеть» мир без единой подсказки

«

Разрабатывая аугментации, мы закладываем туда человеческие априорные знания. Мы указываем модели, на что ей не нужно обращать внимание.

34:37 · Как Facebook AI научила нейросети «видеть» мир без единой подсказки

«

GLOM — это система, которая вместо презентации одного подхода объединяет достижения разных групп.

1:33 · GLOM: Новый теоретический подход Джеффа Хинтона к машинному зрению

«

Вся сцена целиком будет находиться в весах этой нейросети. То есть веса нейросети теперь представляют сцену.

07:39 · Янник Кильхер о технологии NeRF: как нейросети совершили революцию в 3D-рендеринге

«

Это даже меньше памяти, чем занимают сами входные изображения для одной сцены из любого нашего датасета.

31:04 · Янник Кильхер о технологии NeRF: как нейросети совершили революцию в 3D-рендеринге

«

Этот агент хорош потому, что люди глупы. Люди действительно очень глупы.

03:01 · Янник Кильхер разобрал ИИ-агента CICERO от Meta AI, вошедшего в топ-10% игроков в „Дипломатию“

«

Языковая часть здесь почти работает как конвейер перевода между человеческим миром, миром естественного языка, и тем, что агент может понять — миром намерений.

33:15 · Янник Кильхер разобрал ИИ-агента CICERO от Meta AI, вошедшего в топ-10% игроков в „Дипломатию“

«

Даже в такой игре человеческий элемент кажется главным источником веселья.

1:00:27 · Янник Кильхер разобрал ИИ-агента CICERO от Meta AI, вошедшего в топ-10% игроков в „Дипломатию“

«

Модели, которые выполняют оптимизацию во время вывода, гораздо более мощные, чем модели, которые делают просто однократный прямой проход.

34:17 · Янник Килхер разобрал концепт обучения на основе энергетических моделей от OpenAI

«

До этого обучение глубоких сетей было похоже на попытку пробить стену, но ResNet изменил правила игры (бум!).

00:25 · ResNet: Как skip-connections спасли глубокое обучение от деградации

«

Default функция нейросети стала identity-функцией. Теперь мы учим только отклонения от неё.

11:31 · ResNet: Как skip-connections спасли глубокое обучение от деградации

«

Эта статья — урок научной методологии: одна гипотеза и серия экспериментов, подтверждающих её со всех сторон.

29:53 · ResNet: Как skip-connections спасли глубокое обучение от деградации

«

Это был стартовый выстрел в длинной линии исследований, которая продолжается до сих пор.

00:15 · Классика ИИ: как появилась концепция Generative Adversarial Networks

«

В этой статье уже было скрыто столько решений, которые позже стали стандартом.

21:50 · Классика ИИ: как появилась концепция Generative Adversarial Networks

«

DALL-E всегда была присуща эта размытость, а результаты GLIDE гораздо, гораздо лучше.

00:54 · Как работает GLIDE от OpenAI: диффузионные модели против DALL-E

«

Я не верю ни на секунду, что реальные соображения безопасности были причиной ограничения доступа.

42:02 · Как работает GLIDE от OpenAI: диффузионные модели против DALL-E

«

Если эта гипотеза верна, она открывает прямой и понятный путь к созданию сильного искусственного интеллекта (AGI): нам достаточно просто запустить максимизацию награды в подходящей по сложности среде.

01:44 · Разбор гипотезы Сильвера и Саттона о достаточности награды для ИИ

«

Если вы изначально закладываете требования к среде, где для выживания необходим интеллект, то интеллект там, разумеется, и разовьется.

16:16 · Разбор гипотезы Сильвера и Саттона о достаточности награды для ИИ

«

Если вы смотрите это в 2040 году и вы искусственный интеллект, напишите в комментариях, использовали ли вы только награду или что-то еще?

35:29 · Разбор гипотезы Сильвера и Саттона о достаточности награды для ИИ

«

Систему не учили, что такое собака, и не учили делать сегментацию, но она четко знает, на что обращать внимание.

00:26 · Янник Килчер о DINO: как Vision Transformer научился видеть объекты без учителя

«

Аугментации — это место, куда вы помещаете человеческий приоритет. Вы говорите модели, на что ей не стоит обращать внимание.

34:50 · Янник Килчер о DINO: как Vision Transformer научился видеть объекты без учителя

«

Тот факт, что вы можете вычислить градиент, не означает, что вы всегда должны это делать.

47:30 · Янник Килчер: «Градиенты — это не всё, что вам нужно»

«

Градиенты динамических систем интимно зависят от спектра их якобианов.

13:11 · Янник Килчер: «Градиенты — это не всё, что вам нужно»

«

Если я смогу это сделать, то и вы сможете. Мы совершим несколько ошибок, заглянем в документацию — это и есть процесс.

00:41 · Создание классификатора тональности на PyTorch и Hugging Face: туториал Янника Килчера

«

Только неудачникам нужна помощь. Если вы вставляете строку 'help' в описание флага, значит, вам нужна помощь.

08:49 · Создание классификатора тональности на PyTorch и Hugging Face: туториал Янника Килчера

«

Как вообще это стало настолько просто? Всего год назад это было безумно сложно.

48:35 · Создание классификатора тональности на PyTorch и Hugging Face: туториал Янника Килчера

«

Pathways — это попытка Google уйти от обучения тысячи моделей для тысячи задач к одной модели, которая умеет всё.

02:40 · Google Pathways и тайны OpenAI: как ИИ учится решать задачи и видеть мир

«

Верификаторы позволяют нейросети 'думать' дольше, проверяя свои собственные догадки.

07:56 · Google Pathways и тайны OpenAI: как ИИ учится решать задачи и видеть мир

«

Полноценный многошаговый метод, который итеративно корректирует и повторно считывает текст, способен восстановить 92% исходных текстов из 32 токенов в точности.

02:59 · Янник Килчер объяснил, как Vec2Text восстанавливает текст из эмбеддингов

«

Высокочастотные компоненты векторов, вероятно, используются для хранения мельчайших деталей точных предложений.

27:43 · Янник Килчер объяснил, как Vec2Text восстанавливает текст из эмбеддингов

«

Каждая клетка должна общаться с соседями, чтобы они все пришли к согласию относительно того, какую цифру они составляют.

0:28 · Янник Кильхер о нейронных клеточных автоматах: как MNIST учится через консенсус

«

Это не о SOTA в классификации, это о нейронных клеточных автоматах.

1:20 · Янник Кильхер о нейронных клеточных автоматах: как MNIST учится через консенсус

«

Это безумно круто: кластеры получены без каких-либо меток из датасета ImageNet.

00:26 · Разбор алгоритма SCAN: трехэтапная кластеризация изображений без учителя

«

Выбор гиперпараметров алгоритма всё равно основан на знании меток, так что вопрос его работы в полном отсутствии данных остается открытым.

45:07 · Разбор алгоритма SCAN: трехэтапная кластеризация изображений без учителя

«

Люди обычно приобретают новые навыки, не компрометируя старые. Я не думаю, что это обязательно верно.

03:59 · Янник Кильчер о прогрессивном расширении блоков в LLaMA Pro

«

Это не что-то, что вы делаете дома... это все еще довольно масштабно.

14:30 · Янник Кильчер о прогрессивном расширении блоков в LLaMA Pro

«

Вы можете увеличить количество параметров модели, но проход данных по-прежнему будет требовать того же объема вычислительных мощностей (FLOPS).

02:11 · Switch Transformer: как Google упаковал триллион параметров в одну нейросеть

«

Поразительно, что после стольких лет развития отрасли такая вещь, как инициализация весов, все еще может спасти или погубить модель.

32:15 · Switch Transformer: как Google упаковал триллион параметров в одну нейросеть

«

Это о новом документе, который может решать численно определенный тип дифференциальных уравнений в частных производных намного быстрее, чем что-либо ранее.

00:42 · Fourier Neural Operator: как ИИ ускоряет физические вычисления

«

Фурье-преобразование делает возможным то, что мы называем независимостью от дискретизации: вы обучаете функцию один раз, а затем можете вводить сигналы с разным разрешением.

1:03:11 · Fourier Neural Operator: как ИИ ускоряет физические вычисления

«

Если вы удалите выигрышные билеты, вы всё равно сможете обучить остальные части до относительно хорошей производительности.

00:38 · Янник Кильхер: «В нейросети BERT почти любой фрагмент может стать выигрышным»

«

В трансформерах мы пруним целые модули, и это качественное отличие от удаления одиночных связей.

09:50 · Янник Кильхер: «В нейросети BERT почти любой фрагмент может стать выигрышным»

«

Поразительно, что эти кластеры получены без каких-либо меток из датасета ImageNet.

00:26 · Обучение без учителя: как метод SCAN классифицирует изображения без единой метки

«

Выбор гиперпараметров алгоритма был проинформирован метками, так что неясно, как это сработает в их полном отсутствии.

45:07 · Обучение без учителя: как метод SCAN классифицирует изображения без единой метки

«

Машинное обучение в 2023–2024 годах стало просто правилом: давайте повторим эту штуку кучу раз и засунем туда данные.

06:45 · Метод LLaMA Pro: прогрессивное расширение нейросетей без потери старых знаний

«

Это своего рода кувалда, которую вы применяете к матрице весов, просто говоря: так, всё это уходит в ноль.

19:56 · Метод LLaMA Pro: прогрессивное расширение нейросетей без потери старых знаний

«

Это неожиданно качественная генеративная модель для музыки, включая лирику, что, я считаю, довольно ново.

00:18 · Янник Кильхер о Jukebox: «Они научили нейросеть петь»

«

Модель учится сопоставлять музыкальные фрагменты с текстом, и это дает намного лучшие результаты.

27:48 · Янник Кильхер о Jukebox: «Они научили нейросеть петь»

«

Не все фрагменты контента в прошлом одинаково важны для запоминания.

02:01 · Обучение ИИ забыванию: подробный разбор архитектуры Expire-Span от Янника Килчера

«

Система может сама научиться тому, какие вещи важно помнить для будущего, а какие — нет.

01:01 · Обучение ИИ забыванию: подробный разбор архитектуры Expire-Span от Янника Килчера

«

Это стало соревнованием по измерению частей тела между компаниями.

00:13 · Янник Килчер: „GShard — это инженерный прорыв в масштабировании моделей“

«

Если вы начинаете обучение на PhD сейчас, начинайте просить деньги на покупку TPU.

55:48 · Янник Килчер: „GShard — это инженерный прорыв в масштабировании моделей“

«

У OpenAI есть модель на 175 миллиардов параметров. Вы думали, это много? Мило. Посмотрите на модель Google на 600 миллиардов параметров.

Янник Килчер разобрал архитектуру нейросети GShard на 600 миллиардов параметров

«

Это в большей степени инженерная статья, нежели работа по машинному обучению, и именно так её и нужно воспринимать.

2:34 · Янник Килчер разобрал архитектуру нейросети GShard на 600 миллиардов параметров

«

ARDM — это класс моделей, охватывающий и обобщающий порядок-агностические авторегрессионные модели.

01:57 · Янник Кильчер: «Autoregressive Diffusion Models меняют порядок генерации»

«

Вы можете сэкономить время, предсказывая несколько пикселей за один раз, но при этом идет обмен скорости на точность.

26:51 · Янник Кильчер: «Autoregressive Diffusion Models меняют порядок генерации»

«

Люди не говорят вещи, которые просто высоковероятны, потому что я хочу сказать что-то интересное.

0:41 · Янник Килхер: как типичное семплирование делает нейросети человечнее

«

Нам нужны новые стратегии семплирования, и эта — очень перспективна.

1:46 · Янник Килхер: как типичное семплирование делает нейросети человечнее

«

Мы можем, например, семплировать изображения попиксельно, чтобы сделать генеративную модель.

0:40 · Янник Кильчер об архитектуре Autoregressive Diffusion Models

«

Модели обучаются как BERT, но декодируют как авторегрессионные модели, за исключением того, что порядок не фиксирован.

14:15 · Янник Кильчер об архитектуре Autoregressive Diffusion Models

«

Не все воспоминания созданы равными.

Янник Кильхер: «Expire-Span учит нейросети правильно забывать»

«

Если всегда забывать, а потом что-то становится важным, вы уже не знаете, что было нужно запомнить.

28:10 · Янник Кильхер: «Expire-Span учит нейросети правильно забывать»

«

Глубокое обучение — это, по сути, просто замена части, создающей признаки.

03:48 · Янник Килхер о новом обучаемом оптимизаторе от Google: «Интересно, но сыро»

«

Нам не нужны гиперпараметры, но в процессе обучения самого оптимизатора их огромное количество.

47:39 · Янник Килхер о новом обучаемом оптимизаторе от Google: «Интересно, но сыро»

«

Вместо того чтобы дать LSTM возможность самой вычислять моменты на основе истории весов и градиентов, исследователи снова вернулись к ручному проектированию признаков.

21:57 · Нейросети вместо формул: почему обучаемые оптимизаторы Google буксуют?

«

Общая тенденция неумолима: чем больше и сложнее становится задача, тем хуже показывает себя обучаемый оптимизатор.

44:36 · Нейросети вместо формул: почему обучаемые оптимизаторы Google буксуют?

«

Я не говорю вещи, которые просто очень вероятны, потому что на самом деле хочу сказать что-то интересное.

00:41 · Почему ИИ говорит банальности: Янник Кильхер о методе Typical Decoding

«

Типичные сообщения — это те, которые мы ожидаем исходя из распределения вероятностей; их среднее содержание информации на символ близко к скорости энтропии.

32:02 · Почему ИИ говорит банальности: Янник Кильхер о методе Typical Decoding

«

В 97 из 100 случаев модель правильно нашла и классифицировала животных, которых пропустили люди-аннотаторы.

31:52 · Как нейросети используют память за целый месяц для поиска объектов в Context R-CNN

«

Мы собираемся «угнать» (hijack) существующий детектор объектов, чтобы добавить в него контекст.

07:04 · Как нейросети используют память за целый месяц для поиска объектов в Context R-CNN

«

Корректируя параметры нормализации, мы напрямую влияем на то, как формируются векторы ключей, запросов и значений на следующем шаге. Мы не меняем саму матрицу внимания, но мы меняем сигнал до неузнаваемости.

13:23 · Языковые модели как универсальные вычислители: разбор исследования от Янника Кильчера

«

Интеллект — это способность агента достигать целей в широком спектре сред.

03:34 · Шолле о машинном обучении: «Мы измеряем навыки, а не адаптивность»

«

ИИ — это наука о создании машин, способных выполнять задачи, которые требовали бы интеллекта, если бы их выполнял человек.

07:02 · Шолле о машинном обучении: «Мы измеряем навыки, а не адаптивность»

«

В 97 из 100 случаев модель правильно находила и классифицировала животных, пропущенных человеком.

31:38 · Context R-CNN: почему модели нужно «видеть» прошлое для точного распознавания

«

По словам Янника Килчера, такой подход практически всегда даёт более точный результат, чем использование одиночной сети.

03:52 · Ландшафт потерь ИИ: как Deep Ensembles находят уникальные решения

«

Никакой «врождённой сложности» у объектов датасета нет.

23:37 · Ландшафт потерь ИИ: как Deep Ensembles находят уникальные решения

«

Единственный надёжный способ выбраться из локальной ловушки и найти альтернативную моду — это полная перезагрузка весов и обучение с нуля.

32:50 · Ландшафт потерь ИИ: как Deep Ensembles находят уникальные решения

«

Модели — это не просто таблицы поиска, это скорее таблицы нечеткого поиска и интерполяции.

15:51 · Янник Килчер о GPT-3: «Модель использует нечеткий поиск данных»

«

Трансформеры обучаются большому количеству хороших фичей, которые полезны для вычисления самых разных вещей.

23:54 · Янник Килхер разобрал гипотезу трансформеров как универсальных вычислителей

«

Мы можем влиять на матрицу внимания, даже не обучая веса самого механизма attention.

27:02 · Янник Килхер разобрал гипотезу трансформеров как универсальных вычислителей

«

Если бы вы только знали заранее, какие связи нужно сохранить, вы могли бы провести прунинг в самом начале обучения.

05:21 · Янник Килчер: «Алгоритм SynFlow позволяет удалять лишние веса еще до начала обучения»

«

Коллапс слоя происходит, когда алгоритм удаляет все параметры в одном слое весов, даже если в других частях сети еще остаются удаляемые параметры.

12:09 · Янник Килчер: «Алгоритм SynFlow позволяет удалять лишние веса еще до начала обучения»

«

SynFlow работает без данных: вы просто подаете единицы, делаете один проход и получаете оценки значимости.

39:08 · Янник Килчер: «Алгоритм SynFlow позволяет удалять лишние веса еще до начала обучения»

«

В старых статьях по глубокому обучению половина текста уходила на вывод градиентов предложенной архитектуры.

02:26 · Эффективное неявное дифференцирование: как JAX и Google Research меняют правила игры в ML

«

Вместо того чтобы делать оптимизатор дифференцируемым, нам нужно сделать дифференцируемым только условие оптимальности.

14:12 · Эффективное неявное дифференцирование: как JAX и Google Research меняют правила игры в ML

«

Идея здесь довольно проста в математическом плане, но о ней немного странно думать.

04:42 · Facebook AI представила XCiT: линейная сложность внимания через кросс-ковариацию каналов

«

Интересно, не пора ли нам запустить хештег #LeaveTransformersAlone, потому что мы называем трансформером всё, что имеет динамические веса.

30:35 · Facebook AI представила XCiT: линейная сложность внимания через кросс-ковариацию каналов

«

Без L2-нормализации модель просто полностью выходит из строя.

32:48 · Facebook AI представила XCiT: линейная сложность внимания через кросс-ковариацию каналов

«

Нейронные сети никогда полностью не «забывают» свой самый первый опыт претренинга.

25:22 · Янник Килчер об ExT5: как экстремальное масштабирование задач меняет обучение нейросетей

«

ExT5 — это классическая архитектуру T5, «заряженная стероидами» за счет претренинга на комбинированном объекте.

38:51 · Янник Килчер об ExT5: как экстремальное масштабирование задач меняет обучение нейросетей

«

По их мнению, комплексные проблемы принятия решений можно естественным образом декомпозировать на несколько подзадач, разворачивающихся последовательно или параллельно.

02:50 · Как решать новые задачи в RL без переобучения: разбор Янника Килчера

«

Главная ценность метода, по словам ведущего, в том, что полученная «нулевая» стратегия может служить отличной отправной точкой для последующего быстрого дообучения.

36:47 · Как решать новые задачи в RL без переобучения: разбор Янника Килчера

«

Если вы обучаете сеть с помощью backprop, она гораздо ближе соответствует биологическим сетям в том, как они формируют скрытые представления.

12:36 · Янник Кильхер: «Может ли мозг обучаться методом обратного распространения ошибки?»

«

Этот алгоритм достигает того, что мы хотели: он не использует backprop и полагается только на локальную информацию.

24:43 · Янник Кильхер: «Может ли мозг обучаться методом обратного распространения ошибки?»

«

Сети, которые были обучены с помощью бэкпропа, соответствуют биологическим сетям гораздо ближе в том, как они формируют свои скрытые представления.

12:36 · Возможен ли бэкпроп в мозге? Разбор гипотезы Джеффри Хинтона

«

Вся информация, требуемая для обновления слоя нейронов, теперь содержится внутри этого самого слоя.

28:31 · Возможен ли бэкпроп в мозге? Разбор гипотезы Джеффри Хинтона

«

Все аргументы могут быть аннулированы тем, что результат лучше — это и есть глубокое обучение.

38:04 · Разбор DeBERTa: как Microsoft улучшила архитектуру BERT

«

По мнению Килчера, выбор этой платформы является пережитком прошлого века и чистым пиар-ходом.

0:53 · Как ИИ AlphaStar покорил StarCraft II с помощью многоагентного обучения

«

Главным концептуальным прорывом работы, по мнению Янника Килчера, является организация процесса тренировок, названная «обучением в Лиге» (League training).

26:01 · Как ИИ AlphaStar покорил StarCraft II с помощью многоагентного обучения

«

1008 изображений такого материала — это на 1008 слишком много, вопрос о необходимости их удаления не стоит.

02:56 · Янник Килчер: «Отчет Стэнфорда о LAION-5B — это атака на open-source под видом защиты детей»

«

Это имеет все характеристики 'заказного материала' (hit piece), используемого для создания возмущения.

03:36 · Янник Килчер: «Отчет Стэнфорда о LAION-5B — это атака на open-source под видом защиты детей»

«

Если модель знает о дарк-материалах, это позволяет ей создавать лучшее искусство и понимать разницу между эпатажем и нормой.

12:10 · Янник Килчер: «Отчет Стэнфорда о LAION-5B — это атака на open-source под видом защиты детей»

«

Это все — пиар-акция DeepMind, потому что Nature имеет большой вес в последние десятилетия.

0:53 · AlphaStar: как ИИ достиг уровня Grandmaster в StarCraft II

«

AlphaStar — это классическое обучение с подкреплением, и с человеческими данными можно зайти очень далеко.

9:05 · AlphaStar: как ИИ достиг уровня Grandmaster в StarCraft II

«

Для беднейших слоев населения, которые едва начинают зарабатывать свои первые монеты, ИИ устанавливает самую высокую налоговую ставку — около 60%.

17:05 · Янник Килчер разобрал симуляцию AI Economist: как ИИ предлагает оптимизировать налоги

«

Я построю большую прекрасную стену, и заставлю оранжевого парня заплатить за нее! Это же Дональд Трамп внутри игры!

33:55 · Янник Килчер разобрал симуляцию AI Economist: как ИИ предлагает оптимизировать налоги

«

Фрейминг задачи — это половина битвы в научной работе.

9:58 · HyperTransformer: Как одна нейросеть за мгновение создает другую

«

Единственное, в чем вы можете быть уверены на NeurIPS, это в том, что там всегда, всегда есть алгоритмы 'бандитов', и они просто не умирают.

56:46 · Янник Кильхер на NeurIPS 2023: почему ChatGPT не читает вверх ногами и как чинить «горчицу в кофе»

«

Короткая история этой статьи: используйте Adam, всё будет в порядке. Длинная история — чуть сложнее.

00:13 · Янник Килчер: «Используйте Adam, этого достаточно — итоги бенчмарка оптимизаторов»

«

Настройка одного оптимизатора помогает примерно так же сильно, как и попытка смены самого оптимизатора.

36:27 · Янник Килчер: «Используйте Adam, этого достаточно — итоги бенчмарка оптимизаторов»

«

Вы не можете запрограммировать компьютер делать это, именно поэтому мы и используем глубокое обучение.

12:11 · Янник Кильчер: «Мы не можем математически сформулировать цели для нейросетей»

«

Никогда не приписывайте системам способности более высокого уровня, если их решения можно адекватно объяснить обучением по кратчайшему пути.

46:50 · Янник Кильчер: «Мы не можем математически сформулировать цели для нейросетей»

«

Использовать Adam или SGD с моментумом, немного их настроить — и все, что из этого получится, скорее всего, будет в порядке.

00:55 · Янник Килхер разобрал масштабный бенчмарк оптимизаторов глубокого обучения

«

Вместо поиска настроек для одного оптимизатора, тюнинг помогает примерно так же, как проба других оптимизаторов.

36:14 · Янник Килхер разобрал масштабный бенчмарк оптимизаторов глубокого обучения

«

По сути, для бедных в этой системе действует принцип: «Да пошли вы».

17:32 · Экономика под управлением ИИ: как Salesforce научила нейросети собирать налоги

«

Я построю большую красивую стену, и оранжевый парень за нее заплатит.

33:55 · Экономика под управлением ИИ: как Salesforce научила нейросети собирать налоги

«

Писать по-французски, не говоря по-французски — это практически рецепт того, как я сдал старшую школу.

02:10 · Янник Килчер: «Cedille, YOU и ИИ-инвестиции в мемы»

«

Жаловаться легче, чем делать.

17:44 · Янник Килчер: «Cedille, YOU и ИИ-инвестиции в мемы»

«

Никогда не следует приписывать искусственным системам высокоуровневые когнитивные способности или «понимание», если их поведение можно адекватно и полностью объяснить обучением по кратчайшему пути (Shortcut Learning).

46:50 · Феномен Shortcut Learning: почему нейросети находят лазейки в данных вместо понимания

«

Вы не можете строго запрограммировать алгоритм, который извлекает форму чего-либо — именно поэтому мы и используем глубокое обучение.

12:23 · Феномен Shortcut Learning: почему нейросети находят лазейки в данных вместо понимания

«

При совместном обучении множества задач далеко не всегда очевидно, пойдет ли это на пользу финальному результату.

15:29 · Экстремальное масштабирование: как модель ExT5 объединила 107 задач обучения

«

Предобучение, особенно на самом начальном этапе, всегда будет оказывать определяющее влияние на финальную модель.

25:52 · Экстремальное масштабирование: как модель ExT5 объединила 107 задач обучения

«

Если у вас нет self-supervised предобучения, даже при огромном количестве контролируемых данных результат будет крайне слабым.

29:22 · Экстремальное масштабирование: как модель ExT5 объединила 107 задач обучения

«

Это в чистом виде динамическая 1x1 свёртка, где ядро свёртки вычисляется на основе всей последовательности целиком.

18:48 · Янник Кильхер об архитектуре XCiT: трансформер или скрытая свёрточная сеть?

«

Без L2-нормализации процесс обучения полностью ломается и модель выдает нулевую точность.

32:48 · Янник Кильхер об архитектуре XCiT: трансформер или скрытая свёрточная сеть?

«

Это отличный пример того, что в эпоху глубокого обучения все еще можно достичь многого за счет умного построения архитектуры самой нейронной сети.

04:30 · Янник Килчер о RepNet: как нейросети считают повторы в видео

«

Я почти больше заинтересован в подобных экспериментах, чем в самих цифрах, потому что цифры всегда можно «накрутить», просто добавив больше мощностей.

33:14 · Янник Килчер о RepNet: как нейросети считают повторы в видео

«

То, что модель работает хорошо на тестовой выборке, не гарантирует, что она будет работать в реальном мире.

2:22 · Недостаточная спецификация: почему современные модели AI часто дают сбой в реальности

«

Если вы развертываете ML в реальном мире, очень уместно заботиться о подобных проблемах.

10:57 · Недостаточная спецификация: почему современные модели AI часто дают сбой в реальности

«

Если вы развертываете машинное обучение в реальном мире, вам действительно стоит беспокоиться о подобных проблемах.

10:57 · Почему идеальные тесты ИИ проваливаются в реальном мире

«

Поскольку модель недоспецифицирована, вы можете попытаться ввести дополнительные спецификации, которые важны для вас, на этапе обучения.

9:01 · Почему идеальные тесты ИИ проваливаются в реальном мире

«

Если вы еще не пробовали Weights & Biases, пожалуйста, попробуйте, это полностью бесплатно.

02:09 · Янник Кильхер: WebGPT, ожившие рисунки и новый журнал TMLR

«

Датасет TruthfulQA — это скам, и сам факт того, что он называется «TruthfulQA» — это скам.

08:58 · Янник Кильхер: WebGPT, ожившие рисунки и новый журнал TMLR

«

XLNet — это первый алгоритм, который смог победить BERT во многих задачах, где BERT ранее доминировал.

00:13 · XLNet против BERT: как случайные перестановки слов помогли ИИ побить рекорды

«

Стоимость обучения в 245 тысяч долларов — это безумие... это ставит вопросы о способности академических игроков участвовать в исследованиях.

29:22 · XLNet против BERT: как случайные перестановки слов помогли ИИ побить рекорды

«

Алгоритм DFA работает: пока не на одном уровне с обратным распространением, но в очень многообещающем направлении.

01:09 · Сможет ли случайная матрица заменить обратное распространение ошибки?

«

В биологии у нас нет аналогов механизму переноса транспонированных матриц весов.

06:07 · Сможет ли случайная матрица заменить обратное распространение ошибки?

«

Разреженные слои достаточны для получения той же перплексии, что и стандартный трансформер с тем же количеством параметров.

02:13 · Как архитектура Terraformer ускоряет Transformers в 37 раз без потери качества

«

Эффект разреженности действительно сияет, когда вы переходите к более крупным моделям.

01:35 · Как архитектура Terraformer ускоряет Transformers в 37 раз без потери качества

«

По сути, это первый случай, когда система успешно создает алмазную кирку в Minecraft — если не считать людей.

0:13 · Как нейросеть OpenAI научилась крафтить алмазную кирку в Minecraft

«

Если у вас есть вся видеопоследовательность целиком, в ретвоспективе гораздо проще определить, какое действие было посередине.

7:21 · Как нейросеть OpenAI научилась крафтить алмазную кирку в Minecraft

«

Мы, люди, способны придумывать правила для решения задач, и в более широком смысле мы способны создать алгоритм.

01:18 · Янник Кильхер разобрал нейросимволическую систему DreamCoder

«

Интуиция в программе — это идеальное место для внедрения нейронной сети.

14:42 · Янник Кильхер разобрал нейросимволическую систему DreamCoder

«

XLNet — это первый алгоритм, который смог побить BERT, предыдущий стандарт индустрии, на большинстве задач NLP.

00:13 · XLNet: первый алгоритм, побивший BERT во всём

«

Это кажется безумием... это вызывает большие вопросы о состоянии исследований и способности академических игроков участвовать в процессе.

29:13 · XLNet: первый алгоритм, побивший BERT во всём

«

Попытки обучить модель с нуля случайными действиями в среде обучения с подкреплением не приносят никаких результатов

03:33 · OpenAI обучила нейросеть крафтить алмазную кирку по видеороликам

«

Обучение моделей потребовало 9 дней непрерывной работы кластера из 720 графических процессоров NVIDIA V100

31:56 · OpenAI обучила нейросеть крафтить алмазную кирку по видеороликам

«

Cool part about this method is it can sort of stitch together the appropriate behaviors from the data set even if you don't provide these specifically to solve the task.

23:38 · AMP: как обучить ИИ-персонажей двигаться естественно?

«

It's still to be seen how much this is of practical value in other reinforcement learning tasks where you don't have that available.

33:50 · AMP: как обучить ИИ-персонажей двигаться естественно?

«

По мнению автора канала Янника Килчера, это доказывает, что человеческий язык в гораздо большей степени состоит из чистых взаимосвязей между элементами, нежели из абсолютных значений конкретных слов.

19:01 · Янник Килчер на NeurIPS 2023: главные тренды нейросетей

«

Мы хотим, чтобы реальный мир соответствовал латентному пространству таким образом, чтобы при движении реального мира латентное пространство двигалось эквивариантно.

00:51 · Янник Килхер о топографических VAE: «Это интересная идея или прорыв?»

«

Мне кажется, это работа из разряда «вот вам идея». Она работает, если мы специально сконструируем датасет и правильно подберем параметры.

27:39 · Янник Килхер о топографических VAE: «Это интересная идея или прорыв?»

«

Если вы думаете, что видели это раньше, то будете абсолютно правы: это выглядит как полносвязный слой из обычного MLP.

16:31 · Янник Кильхер о Synthesizer: переосмысление внимания в Transformer

«

Я не думаю, что это свидетельство того, что нам не нужно dot-product внимание. Скорее, это просто то, что часто происходит в глубоком обучении.

32:31 · Янник Кильхер о Synthesizer: переосмысление внимания в Transformer

«

Природа человеческого языка во многом состоит из чистых взаимосвязей между элементами, а не из абсолютных значений слов.

19:01 · Итоги сессии NeurIPS 2023: от скрытых алгоритмов трансформеров до защиты от аппаратных сбоев

«

Реальные пользователи могут предоставить вам гораздо более высокое качество данных, чем наемные краудсорсинговые рабочие.

26:34 · Итоги сессии NeurIPS 2023: от скрытых алгоритмов трансформеров до защиты от аппаратных сбоев

«

Без софтмакса мы можем делать все операции линейным образом, что радикально снижает затраты.

22:59 · Как превратить трансформер в RNN и ускорить его в 4000 раз?

«

Этот хак для параллельного обучения авторегрессионных трансформеров на самом деле делает их формулировку намного слабее.

43:37 · Как превратить трансформер в RNN и ускорить его в 4000 раз?

«

Уязвимость моделей — это прямой результат их чувствительности к хорошо обобщающим закономерностям в данных.

07:05 · Баг или фича? Почему состязательные атаки обманывают нейросети

«

Авторы просто перенесли проблему из плоскости архитектуры классификаторов в плоскость геометрии датасетов, оставив многие вопросы открытыми.

36:20 · Баг или фича? Почему состязательные атаки обманывают нейросети

«

Согласно Имаду, цель Stability AI — быть тем, чем изначально должна была стать OpenAI.

00:40 · Янник Килчер: «Станет ли Stability AI копией OpenAI?»

«

Если вы верите, что нужно сначала все проверить и давать плебсу доступ только после вашего одобрения — вы не преданы open-source.

34:51 · Янник Килчер: «Станет ли Stability AI копией OpenAI?»

«

Удивительно, но разреженные слои достаточны для получения той же перплексии, что и у стандартного трансформера с тем же количеством параметров.

02:13 · Как архитектуры Scaling Transformer и Terraformer ускоряют инференс больших моделей

«

Рекуррентные слои позволяют информации распространяться во времени даже внутри одного блока декодера.

52:27 · Как архитектуры Scaling Transformer и Terraformer ускоряют инференс больших моделей

«

Involution — это нечто среднее между сверткой и механизмом внимания.

00:29 · Involution против CNN: как работают динамические ядра в Vision

«

Это очень интересная разработка для всех, кто не работает с задачами сверхбольшого масштаба.

00:55 · Involution против CNN: как работают динамические ядра в Vision

«

Involution — это нечто среднее между сверткой и механизмом self-attention.

0:29 · Янник Кильхер: «Инволюция — новый убийца сверточных нейросетей?»

«

Если вы не работаете с задачами колоссального масштаба, сверточные нейросети остаются лучшим выбором.

1:51 · Янник Кильхер: «Инволюция — новый убийца сверточных нейросетей?»

«

Наши текущие сети часто с трудом справляются с неизвестным и присваивают высокую вероятность входным данным вне распределения.

06:27 · Виртуальные аномалии: как метод VOS учит ИИ распознавать данные вне распределения

«

Идеально было бы, если бы сеть была уверена там, где есть обучающие данные, но выдавала низкую уверенность в местах, которых она никогда не видела.

08:42 · Виртуальные аномалии: как метод VOS учит ИИ распознавать данные вне распределения

«

Атака крутая, опасения обоснованы, но статья написана чуть более пугающе, чем кажется на самом деле.

02:39 · Янник Килхер о проблеме утечки данных из нейросетей: «Страшнее, чем кажется?»

«

Если модель обучена на приватных данных, вы должны беспокоиться, что она просто выдаст эти данные в конце.

01:48 · Янник Килхер о проблеме утечки данных из нейросетей: «Страшнее, чем кажется?»

«

Если вы пришли сюда и думали, что мы в науке, где принято описывать всё воспроизводимо, вы ошиблись.

05:49 · Янник Кильчер о Lumiere: «Это впечатляющий шаг для Google»

«

Это не видеогенерация... это просто 5-секундные анимированные картинки.

17:30 · Янник Кильчер о Lumiere: «Это впечатляющий шаг для Google»

«

По мнению Янника Килхера, цель Stability AI изначально заключалась в том, чтобы стать тем, чем должна была стать OpenAI.

00:40 · Спорная стратегия Stability AI: повторяет ли стартап путь OpenAI?

«

Если вы считаете, что должны выдавать инструменты людям только после того, как сами проверите их на безопасность, вы не преданы идее открытого кода.

34:51 · Спорная стратегия Stability AI: повторяет ли стартап путь OpenAI?

«

Outliers we all know them, we all hate them. How can these data points just be out of distribution not in the training data?

00:01 · Янник Кильхер о VOS: «Метод работает, но вопросы остались»

«

If this really works, this could mean a lot for especially for safety critical applications.

04:28 · Янник Кильхер о VOS: «Метод работает, но вопросы остались»

«

Это первый шаг к созданию платформы ИИ, которая позволит создавать визуальные миры и поможет создателям контента.

52:07 · Янник Кильхер: «NÜWA — универсальная модель для синтеза контента»

«

Вместо того чтобы работать над всей последовательностью, мы используем локальное внимание в 3D-тензоре.

33:30 · Янник Кильхер: «NÜWA — универсальная модель для синтеза контента»

«

Если вы сможете смешивать произвольные входящие модальности вместе, это будет потрясающе для создателей контента.

52:20 · Как нейросеть NÜWA создает видео с помощью трехмерного внимания

«

Такие объемы данных определенно выходят за рамки возможностей любого существующего трансформера.

06:58 · Как нейросеть NÜWA создает видео с помощью трехмерного внимания

«

Алгоритм SGD действует «жадно» и делает небольшие шаги, стремясь приложить минимум усилий для достижения цели.

04:40 · Магия знака или просто геометрия? Как Uber AI деконструировали нейросети

«

По моему мнению, успех концепции лотерейных билетов и супермасок напрямую зависит от простоты решаемой задачи.

34:25 · Магия знака или просто геометрия? Как Uber AI деконструировали нейросети

«

Если вы пришли сюда за наукой и думали, что мы опишем все воспроизводимым образом — вы ошиблись адресом. В больших тех-компаниях это больше не наука, это маркетинг.

06:03 · Как Lumiere от Google генерирует видео целиком: разбор архитектуры ST-UNet

«

Авторы переформулировали концепцию среднего значения настолько запутанным образом, что это позволило вставить ссылку на предыдущую статью коллеги.

43:38 · Как Lumiere от Google генерирует видео целиком: разбор архитектуры ST-UNet

«

Это единая модель, которая принимает на вход текст и выдает изображение, а не отдельные специализированные сети.

02:15 · Как нейросеть DALL·E генерирует изображения по тексту: технический разбор

«

Прямая генерация отдельных пикселей высокого разрешения стандартным трансформером невозможна из-за колоссальных вычислительных затрат.

10:20 · Как нейросеть DALL·E генерирует изображения по тексту: технический разбор

«

Точная маршрутизация может быть не так важна для большинства задач, как сам факт того, что информация просто перемешивается.

15:40 · Конец эпохи Attention? Как Google заменил внимание школьной математикой

«

Мы вышли из эры «я хочу новый SOTA» и перешли в эру «это работает почти так же хорошо, но в разы быстрее».

21:52 · Конец эпохи Attention? Как Google заменил внимание школьной математикой

«

По мнению ведущего, у компании вряд ли было большое количество размеченных вручную данных для такой задачи, поэтому ставка была сделана на масштабирование автоматического сбора.

05:18 · Янник Кильхер разобрал архитектуру и ограничения нейросети DALL·E

«

Модель очень чувствительна к формулировкам: если изменить порядок слов, результат может кардинально поменяться.

34:49 · Янник Кильхер разобрал архитектуру и ограничения нейросети DALL·E

«

Это следствие того, что SGD пытается приложить как можно меньше усилий для достижения цели.

04:40 · Янник Кильхер: деконструкция гипотезы лотерейных билетов в нейросетях

«

Мне кажется, авторы переинтерпретируют многие вещи; в конечном счете все сводится к приближению весов к их оптимальным значениям.

28:05 · Янник Кильхер: деконструкция гипотезы лотерейных билетов в нейросетях

«

Мы вышли из эры «здесь новая SOTA» и вошли в эру «это работает почти так же хорошо, но быстрее».

22:06 · FNet: как Google ускоряет sequence-модели без блоков внимания

«

Преобразование Фурье было выбрано потому, что оно было легкодоступно в библиотеках, но это просто техника смешивания.

20:59 · FNet: как Google ускоряет sequence-модели без блоков внимания

«

Это не очень отличается от того, как учатся люди: вы хотите тренироваться в зоне ближайшего развития.

03:22 · ACCEL: как ИИ самостоятельно создает себе учебную программу

«

Мы переносим ответственность с алгоритма агента на алгоритм создания среды.

43:24 · ACCEL: как ИИ самостоятельно создает себе учебную программу

«

Если вы явно учите трансформер «думать» о задаче планирования, он становится гораздо более способным.

43:06 · Янник Кильчер о Searchformer: «Обучение модели мышлению действительно работает»

«

Searchformer больше не имитирует поиск A*, а нашел новый способ решения с меньшим количеством шагов.

37:31 · Янник Кильчер о Searchformer: «Обучение модели мышлению действительно работает»

«

Визуальное state-of-the-art исследование теперь официально вне досягаемости академических институтов.

30:54 · Янник Кильхер о BiT: «Универсальный старт для любой визуальной задачи»

«

Масштабирование данных без масштабирования модели — не самая эффективная стратегия.

12:03 · Янник Кильхер о BiT: «Универсальный старт для любой визуальной задачи»

«

Исследования нейросетей в компьютерном зрении официально вышли из рук академии. Если вы не можете ждать 8 GPU-месяцев — это конец.

30:54 · Big Transfer (BiT): как Google адаптировал успех BERT для компьютерного зрения

«

BiT-HyperRule — это одно правило, которое скажет вам, какими должны быть все гиперпараметры для вашей задачи.

21:31 · Big Transfer (BiT): как Google адаптировал успех BERT для компьютерного зрения

«

Что здесь происходит на самом деле? Трансформер вовсе не обретает способность внезапно рассуждать и связывать глубокие логические смыслы на огромном расстоянии. Далекое прошлое затухает из-за штрафов настолько сильно, что модель его просто игнорирует, концентрируясь на свежем контексте.

29:25 · Янник Килчер разобрал метод ALiBi для экстраполяции контекста трансформеров

«

Если идея состоит в том, что решающая граница просто следует за многообразием данных, а затем слегка прогибается вокруг точек, чтобы классификация была верной, то единственное ограничение здесь — это правильный класс самой точки. Модель ямчатого многообразия абсолютно ничего не говорит о том, почему на другой стороне ямки возникает именно класс "гуакамоле", а не какой-либо еще

40:53 · Янник Кильчер против теории ямчатого многообразия: почему новая модель состязательных атак не выдержала проверки

«

Трансформер фактически имеет дело с входной последовательностью как с набором (set), а не последовательностью.

03:27 · Янник Килчер о методе ALiBi: «Трансформеры теперь могут работать с текстами в 10 раз длиннее»

«

Простота может быть ключом к успеху. Код доступен, и если вы внедряете трансформеры — попробуйте ALiBi.

31:10 · Янник Килчер о методе ALiBi: «Трансформеры теперь могут работать с текстами в 10 раз длиннее»

«

Модель вмятого многообразия объясняет меньше, чем те модели, которые у нас уже были.

01:32 · Янник Килхер: «Модель вмятого многообразия объясняет меньше, чем мы знали»

«

Тот факт, что атака на многообразии требует большей нормы — это просто эффект проекции на любое низкоразмерное пространство.

01:09:21 · Янник Килхер: «Модель вмятого многообразия объясняет меньше, чем мы знали»

«

Маленькая обученная модель может быть намного меньше, чем GPT-3, потому что она натренирована строго под конкретную задачу, и вам не придется платить OpenAI каждый раз при ее вызове.

37:52 · Студент превзошел учителя: как ИИ создает базы знаний лучше человека

«

Весь мусор, который производит GPT-3, это примерно один и тот же мусор. Но когда модель выдает что-то хорошее, эти данные оказываются удивительно разнообразными.

34:47 · Студент превзошел учителя: как ИИ создает базы знаний лучше человека

«

Модели генерируют больше запомненных обучающих данных по мере того, как они становятся больше.

03:42 · Как повторение одного слова заставляет ChatGPT выдавать обучающие данные

«

Поскольку этот документ был предоставлен OpenAI в рамках ответственного разглашения 90 дней назад, вполне вероятно, что они исправили это простым перехватом повторений.

02:35 · Как повторение одного слова заставляет ChatGPT выдавать обучающие данные

«

По мнению авторов работы, GPT-3 способна самостоятельно сгенерировать масштабный корпус здравого смысла, который затем можно отфильтровать и использовать для обучения специализированных моделей

00:39 · Как обучить маленькую нейросеть здравому смыслу лучше, чем GPT-3

«

Истинная ценность работы заключается в переосмыслении роли человека: вместо долгого и дорогого придумывания примеров с нуля, гораздо эффективнее использовать людей как цензоров и контролеров качества

44:30 · Как обучить маленькую нейросеть здравому смыслу лучше, чем GPT-3

«

Если вы попросите ChatGPT бесконечно повторять относительно странную вещь, в конечном итоге она просто выплюнет свои обучающие данные.

0:13 · Как заставить ChatGPT изрыгать обучающие данные с помощью одного слова?

«

Модели выдают больше заученных обучающих данных по мере того, как они становятся больше.

3:35 · Как заставить ChatGPT изрыгать обучающие данные с помощью одного слова?

«

В то время как регулярная свертка локализована в пространстве пикселей, свертка Фурье локализована в частотном пространстве, но является глобальной в пространстве пикселей.

12:20 · Как победить пустые пиксели с помощью формулы Фурье?

«

Knowledge is stored implicitly in the parameters of a neural network, requiring ever larger networks to cover more facts.

6:24 · Как REALM учит нейросети искать ответы в Википедии

«

You want to induce your model to learn more global knowledge, more world knowledge, more semantics of the language.

47:20 · Как REALM учит нейросети искать ответы в Википедии

«

Графовые сети — идеальный кандидат для нашего подхода из-за их индуктивных смещений, общих для многих физических задач.

31:48 · Как ИИ выводит физические законы из нейросетей

«

Это довольно крутой результат, что вы можете извлечь такие уравнения с помощью только этих графовых сетей и символьной регрессии.

42:59 · Как ИИ выводит физические законы из нейросетей

«

Люди думали, что backprop невозможен в мозгу, поэтому мозг не может делать backprop. Теперь мы видим, что мозг может делать что-то, что аппроксимирует его градиенты.

47:04 · Янник Килхер: «Предиктивное кодирование — биологический аналог backprop?»

«

Чтобы запечатлеть знания более модульным и интерпретируемым способом, мы дополняем предварительное обучение языковой модели скрытым поисковиком знаний.

06:37 · REALM: Как научить нейросеть пользоваться Википедией как человеком

«

Это своего рода замкнутый круг: чем лучше поисковик, тем лучше модель отвечает на вопросы, а чем лучше ответы, тем точнее сигнал для обучения поисковика.

35:54 · REALM: Как научить нейросеть пользоваться Википедией как человеком

«

Being too early is the same as being wrong.

15:22 · Янник Килчер о «аппаратной лотерее»: почему побеждают только удобные технологии

«

We appear to be trying to build a ladder to the moon.

43:52 · Янник Килчер о «аппаратной лотерее»: почему побеждают только удобные технологии

«

Это не новая функция потерь для замены cross-entropy... это новый способ предварительного обучения сети.

01:33 · Yannic Kilcher о Supervised Contrastive Learning: «Революция или шум?»

«

Они заявляют, что их метод превосходит cross-entropy... на ImageNet это улучшение на целый процент, а это много.

01:07 · Yannic Kilcher о Supervised Contrastive Learning: «Революция или шум?»

«

Лучшие медицинские системы строят люди, которые понятия не имеют о медицине. Они просто знают, что врач пометил это как рак легких.

1:50:09 · Миф об универсальном интеллекте: почему глубокое обучение зашло в тупик

«

Если это правда, это может стать поворотным моментом практически для всего обучения с учителем.

01:21 · Янник Килчер: может ли Supervised Contrastive Learning заменить кросс-энтропию?

«

Метод фокусируется на примерах, которые сеть еще не может хорошо представить в рамках поставленной цели.

23:32 · Янник Килчер: может ли Supervised Contrastive Learning заменить кросс-энтропию?

«

Полное сокрытие деталей обучения — это тактически грамотный шаг в современных реалиях ИИ-индустрии.

0:43 · Янник Килчер разобрал архитектуру Mixture of Experts от Mistral AI

«

Когда бенчмарк становится полностью «зеленым», он теряет свою полезность — задачи нужно усложнять, чтобы нащупать предел возможностей модели.

27:00 · Янник Килчер разобрал архитектуру Mixture of Experts от Mistral AI

«

Если вы выберете в качестве ландмарков абсолютно все ключи и запросы, аппроксимация действительно будет идеальной, потому что она перестанет быть аппроксимацией.

31:59 · Линейное внимание вместо квадратичного: спасёт ли метод Найстрема современные нейросети?

«

При длине последовательности 8000 оригинальный трансформер потребует 10 гигабайт памяти, в то время как «Найстример» обходится всего 300 мегабайтами.

44:43 · Линейное внимание вместо квадратичного: спасёт ли метод Найстрема современные нейросети?

«

Значения внутри матрицы внимания не являются абсолютно независимыми друг от друга.

18:23 · Как Nyströmformer решает проблему квадратичной сложности в архитектуре Transformer

«

Вместо применения softmax к результату аппроксимации, они сначала вычисляют softmax для отдельных независимых подматриц меньшего размера

17:03 · Как Nyströmformer решает проблему квадратичной сложности в архитектуре Transformer

«

Как только вы публикуете статью о своей модели, другие люди обязательно воспроизведут ваши усилия, что очень круто для всех нас.

20:28 · Искусственная кожа от Meta и русский DALL-E: подробный обзор ML News от Янника Кильхера

«

Два дома могут выглядеть одинаково в метаданных, но местный риелтор увидит разницу, которую глобальный алгоритм не заметит.

30:45 · Искусственная кожа от Meta и русский DALL-E: подробный обзор ML News от Янника Кильхера

«

Бизнес-модель, основанная на том, чтобы не выпускать свои модели, долго не продержится. Как только вы публикуете статью, другие люди обязательно воспроизведут ваши усилия.

20:15 · Янник Килчер о «журналистике гнева» и провале ИИ-оценки недвижимости в Zillow

«

Это кажется уроком не в том, чего ИИ не может сделать, а в том, что нельзя просто бросить ИИ на проблему и ожидать хороших результатов.

31:12 · Янник Килчер о «журналистике гнева» и провале ИИ-оценки недвижимости в Zillow

«

В стандартной нейросети объём используемых вычислений растет вместе с размером входных данных, но не со сложностью изучаемой проблемы.

02:26 · Как PonderNet обучает нейросети адаптировать объём вычислений под сложность задачи

«

Мы верим, что смещение архитектур нейронных сетей в сторону поведения, больше похожего на алгоритмы, а не на плоские отображения, поможет раскрыть весь потенциал методов глубокого обучения.

43:38 · Как PonderNet обучает нейросети адаптировать объём вычислений под сложность задачи

«

Q-функция — это функция, которая в текущем состоянии по предложенному действию говорит вам, какой будет ваша общая награда в будущем.

8:58 · Янник Килчер о Q-Learning: как ИИ учится принимать решения

«

Q-Learning — это всё о том, можем ли мы выучить Q-функцию.

27:19 · Янник Килчер о Q-Learning: как ИИ учится принимать решения

«

Конечно, эта работа, также известная как AlexNet, была той, что начала революцию глубокого обучения.

00:25 · Яник Килчер о статье AlexNet: «Это начало революции глубокого обучения»

«

Мы используем ReLU в первых двух полносвязных слоях. Без Dropout наша сеть показывает существенное переобучение.

39:54 · Яник Килчер о статье AlexNet: «Это начало революции глубокого обучения»

«

В стандартной нейросети объем вычислений растет с размером входных данных, но не со сложностью изучаемой проблемы.

02:26 · Разбор PonderNet: как научить нейросеть динамически мыслить

«

Биазирование архитектур нейронных сетей к поведению, похожему на алгоритмы, поможет развить методы глубокого обучения до их полного потенциала.

43:38 · Разбор PonderNet: как научить нейросеть динамически мыслить

«

Q-функция — это функция, которая в текущем состоянии, если вы дадите ей предложенное действие, говорит вам, каким будет ваше общее вознаграждение с этого момента.

09:10 · Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»

«

Мы можем свести всю проблему к оценке одного шага: вознаграждение, которое вы получаете от мира, должно каким-то образом быть разницей между тем, что Q-функция сказала вам на прошлом шаге, и тем, что она скажет на следующем.

44:16 · Янник Килчер о Q-Learning: «Возможно, это не связано с Q*»

«

Популярный механизм глубокого обучения можно официально признать частным случаем сети Хопфилда.

13:58 · Янник Килчер объяснил математическую связь трансформеров и сетей Хопфилда

«

Внутреннее правило обновления сети Хопфилда спроектировано таким образом, чтобы итеративно минимизировать эту функцию.

12:50 · Янник Килчер объяснил математическую связь трансформеров и сетей Хопфилда

«

Капсула — это группа нейронов, чей вектор активности представляет параметры экземпляра конкретного типа сущности.

00:42 · Динамическая маршрутизация: Как CapsNet заменяет нейроны векторами

«

Капсульные сети склонны к избыточному объяснению: они хотят найти капсулу для всего, что происходит на изображении.

40:37 · Динамическая маршрутизация: Как CapsNet заменяет нейроны векторами

«

Механизм внимания — это просто одношаговый алгоритм поиска шаблонов в сети Хопфилда с определенным правилом обновления.

26:00 · Связь сетей Хопфилда и механизмов внимания в современных ИИ-моделях

«

Если я чему-то и научился на курсах по быстрому коду, так это тому, что константы имеют значение, когда мы не имеем дела с бесконечностью.

43:39 · Связь сетей Хопфилда и механизмов внимания в современных ИИ-моделях

«

После того как у вас есть модель, вы можете использовать её, чтобы представить, как вы играете, вместо того чтобы действительно играть.

00:53 · Янник Килхер: «Dreamer v2 мастерски осваивает Atari в воображении»

«

В Atari обучение латентных переменных как категориальных намного превосходит гауссовские латентные переменные.

49:51 · Янник Килхер: «Dreamer v2 мастерски осваивает Atari в воображении»

«

Катастрофическое забывание — это феномен, когда при обучении множеству задач нейросеть стирает старые знания, потому что наши методы обратного распространения ошибки просто не приспособлены к последовательному обучению.

01:58 · Янник Кильхер: «Активные дендриты позволяют нейросетям учиться, не забывая старое»

«

Активный дендритный сегмент действует как отдельный вычислительный модуль. Когда входной сигнал достигает порога, он деполяризует тело клетки, подготавливая её к срабатыванию.

15:38 · Янник Кильхер: «Активные дендриты позволяют нейросетям учиться, не забывая старое»

«

После того как модель обучена, вы можете использовать её, чтобы представлять, как вы играете в игру, вместо того чтобы играть на самом деле.

00:53 · Dreamer v2: как дискретные модели мира помогают ИИ побеждать в Atari

«

В моделях на базе категориальных переменных вы можете кодировать важные события, даже если не знаете, что именно они значат.

19:18 · Dreamer v2: как дискретные модели мира помогают ИИ побеждать в Atari

«

Дендриты являются своего рода гаванями, портами или доками для входящего трафика.

12:07 · Как активные дендриты защищают нейросети от катастрофического забывания

«

Сочетание дендритных сегментов и разреженности заставляет обновления происходить в структурированной и последовательной манере.

30:27 · Как активные дендриты защищают нейросети от катастрофического забывания

«

В реальности это кажется просто разновидностью полносвязного слоя, который они предлагают.

01:33 · Янник Кильхер проанализировал линейную архитектуру Fastformer

«

Моя главная проблема здесь — это все эти формулировки в терминах внимания и попытка выдать это за более быстрый трансформер, коим он не является.

35:08 · Янник Кильхер проанализировал линейную архитектуру Fastformer

«

Если мы тренируем модель на Wikipedia, она может делать математику. Если мы тренируем ее на биологических данных, она может предсказывать биологию.

12:12 · BERTology: Как нейросети учатся предсказывать 3D-структуру белков

«

Внедрение шума и аугментаций на экстра-данных приводит к тому, что ученик в конечном итоге узнает о структуре данных больше, чем знал его учитель.

08:09 · Янник Килчер разобрал метод Noisy Student для ImageNet

«

Обычно я критически отношусь к пайплайнам с миллиардом трюков, но здесь авторы провели настолько детальное абляционное исследование, что все вопросы отпадают сами собой.

40:07 · Янник Килчер разобрал метод Noisy Student для ImageNet

«

Этот материал потребует от специалистов по классическому машинному обучению сломать привычные паттерны мышления.

00:13 · Как нейросеть SIREN кодирует 3D-пространство и графику через синус

«

Магия SIREN заключается в том, что производная сети SIREN сама является сетью SIREN.

20:38 · Как нейросеть SIREN кодирует 3D-пространство и графику через синус

«

Если вы похожи на меня и пришли из классического машинного обучения, эта статья потребует от вас переосмыслить само понятие работы с данными.

0:13 · Янник Кильчер: «SIREN — это революция в представлении сигналов»

«

Производная SIREN — это тоже SIREN, и это свойство не характерно для других функций активации.

21:05 · Янник Кильчер: «SIREN — это революция в представлении сигналов»

«

Если мы обучим модель на Википедии, она сможет решать математику, предсказывать биологию, завязывать вам шнурки и готовить ужин

12:25 · Янник Килхер объяснил, как нейросеть BERT предсказывает структуру белка

«

Случайный синтезатор — это просто причудливый способ записи обычного полносвзяного слоя

21:10 · Нужен ли трансформерам Self-Attention? Мнение блогера Янника Кильхера

«

Эти задачи требуют сложного динамического роутинга информации, зависящего от контекста, а не просто статических позиционных смещений

41:42 · Нужен ли трансформерам Self-Attention? Мнение блогера Янника Кильхера

«

Поиск нейроархитектур до сих пор остается лишь модным синонимом фразы „давайте просто попробуем кучу вариантов наугад“.

11:58 · SpineNet против ResNet: новая геометрия бэкбонов для компьютерного зрения

«

Выяснилось, что даже у Google Research не хватило вычислительных мощностей, чтобы запустить поиск нейроархитектур для сетей большого объема.

30:17 · SpineNet против ResNet: новая геометрия бэкбонов для компьютерного зрения

«

Это по сути мем: мы пытались нейрализировать поиск, но всё ещё использовали двухэтапный процесс, а потом подумали: почему бы просто не попросить нейросеть выдать ID документа?

07:46 · Янник Кильхер о DSI: как нейросети запоминают документы

«

DSI делает что-то необычное, и авторы приложили инженерные усилия, чтобы понять, что работает, а что — нет.

51:23 · Янник Кильхер о DSI: как нейросети запоминают документы

«

Полноценная художественная свобода в таких системах пока ограничена.

29:01 · Исследователь Янник Килчер разобрал авторегрессионную нейросеть Parti от Google

«

Критика подобных багов — это жалобы на очень высоком уровне.

31:10 · Исследователь Янник Килчер разобрал авторегрессионную нейросеть Parti от Google

«

Если вы делаете ошибку в задаче восприятия, это будет иметь огромные последствия для всех последующих систем.

08:12 · Илон Маск и Full Self-Driving: почему создание автопилота Tesla — это сложнейшая инженерная задача

«

Колоссальное разнообразие и сложность жизни на Земле возникли в результате всего лишь одного непрерывного запуска процесса оптимизации.

08:57 · Разбор POET: Как открытые алгоритмы от Uber генерируют задачи и решения

«

Эта статья запустила целую революцию в обучении с подкреплением, породив современный хайп вокруг Deep RL.

0:14 · Как ИИ от DeepMind научился играть в Atari: разбор классической статьи от Янника Килчера

«

Модель освоила семь разных игр, используя абсолютно одинаковые гиперпараметры, что доказывает универсальность механизма.

7:59 · Как ИИ от DeepMind научился играть в Atari: разбор классической статьи от Янника Килчера

«

Если ваша модель среды плоха, то планирование в ней часто накапливает и даже преувеличивает ошибки.

07:01 · Янник Килхер о методе самостоятельного обучения навыкам ИИ

«

Навыки, которые мы изучаем, должны быть предсказуемыми, но при этом разнообразными.

11:14 · Янник Килхер о методе самостоятельного обучения навыкам ИИ

«

Реконструкция образов из мозга становится реальностью: семантическое содержание совпадает, даже если пиксели размыты.

00:53 · Янник Кильчер: «GPT-4 станет таким же прорывом, как GPT-3 в своё время»

«

GPT-4 будет таким же улучшением по сравнению с GPT-3, каким GPT-3 была по сравнению с GPT-2.

06:00 · Янник Кильчер: «GPT-4 станет таким же прорывом, как GPT-3 в своё время»

«

Примеры внутри пакета остаются неявно взаимосвязанными, как и в случае с Batch Norm.

27:54 · Кильхер о NFNets: «Примеры внутри пакета остаются неявно взаимосвязанными»

«

Для достижения той же точности, что и у EfficientNet-B7, сети NFNet требуется в 8.7 раза меньше времени.

01:08 · Кильхер о NFNets: «Примеры внутри пакета остаются неявно взаимосвязанными»

«

Подобный подход работает постфактум. Агент сначала совершает действие, заходит в тупик или исследует зону, и только затем рассчитывает внутреннюю награду

08:23 · Как обучить робота без вознаграждений? Разбор алгоритма Plan2Explore

«

В реальном мире это допущение практически никогда не выполняется

20:39 · Как обучить робота без вознаграждений? Разбор алгоритма Plan2Explore

«

Слой внимания — это фактически полносвязный слой, веса которого динамически вычисляются другой частью сети на основе входных данных.

12:47 · Янник Килчер о связи линейных трансформеров и быстрых весов

«

В авторегрессионных моделях можно обойтись без позиционного кодирования, так как они работают подобно рекуррентным сетям.

50:22 · Янник Килчер о связи линейных трансформеров и быстрых весов

«

Это безумие, ведь предыдущие системы даже близко не приближались к человеческому уровню.

00:41 · AlphaCode: как ИИ решает задачи уровня олимпиад

«

Это не просто какой-то фрагмент кода, это полноценный алгоритм.

06:34 · AlphaCode: как ИИ решает задачи уровня олимпиад

«

Есть много способов написать неправильный код.

20:38 · AlphaCode: как ИИ решает задачи уровня олимпиад

«

Янник Кильхер указывает на важный тренд в машинном обучении: архитектуры стандартизируются, и ключевым фактором успеха становится качество очистки данных, а не усложнение блоков модели.

02:26 · Релиз Whisper, чтение мыслей от Meta и ИИ на конкурсе искусств

«

По мнению Янника Кильхера, нейросети — это просто новый мощный инструмент в арсенале художника.

22:10 · Релиз Whisper, чтение мыслей от Meta и ИИ на конкурсе искусств

«

Что вообще происходит с этой лисой? Помогите ей кто-нибудь.

47:50 · Как нейросеть TUNIT научилась переносить стили изображений без разметки

«

Если мы обучаем всё вместе, это работает намного лучше.

42:37 · Как нейросеть TUNIT научилась переносить стили изображений без разметки

«

Что, как мне кажется, происходит на самом деле: модель просто обращается к обучающим данным, которые она целиком сохранила в своих весах. Она извлекает оттуда 5, 10 или 50 наиболее релевантных примеров, соответствующих вашему запросу, а затем интерполирует их для вывода следующего слова

24:54 · Разбор GPT-3 от Янника Килчера: архитектура, тесты и иллюзия логики

«

По словам Янника Кильхера, предыдущие решения страдали от избыточного инженерного усложнения.

01:46 · Янник Кильхер о DETR: «Эта архитектура суперпроста по сравнению с предшественниками»

«

Вся базовая логика модели умещается в несколько десятков строк на PyTorch.

40:17 · Янник Кильхер о DETR: «Эта архитектура суперпроста по сравнению с предшественниками»

«

Вместо предсказания слов CLIP решает задачу классификации: для каждой картинки нужно выбрать наиболее подходящий текст из батча.

16:16 · Янник Килчер разобрал архитектуру и возможности zero-shot модели CLIP от OpenAI

«

Промпт-инжиниринг в таких системах имеет критически важное значение для безопасности применения.

46:57 · Янник Килчер разобрал архитектуру и возможности zero-shot модели CLIP от OpenAI

«

Я не согласен называть это мета-обучением.

02:39 · Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»

«

Обучение с подкреплением и так достаточно жестокая вещь.

44:17 · Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»

«

Похоже, наши модели научились решать эти проблемы, но это не значит, что они выучили те методы, которые мы используем для их решения.

32:04 · Янник Кильчер: «Языковые модели находят „костыли“ для решения задач высшей математики»

«

Модель даже должна была выучить десятичное представление чисел, чтобы понять, что «4» — это не просто другой токен, а число в 20 раз больше «2» из-за его позиции.

25:43 · Янник Кильчер: «Языковые модели находят „костыли“ для решения задач высшей математики»

«

Если долго оскорблять человека, он в конечном итоге ответит грубостью. Модели ведут себя подобно людям, так как статистически отражают человеческое поведение.

22:34 · Янник Кильчер: «Открытый ИИ — это единственный путь»

«

Чтобы быть эффективным помощником, модель должна понимать, что такое злость или предрассудки, иначе она будет наивной и бесполезной.

25:40 · Янник Кильчер: «Открытый ИИ — это единственный путь»

«

Это уже не ручной процесс, когда нам нужно сидеть и думать: «Как написать промпт?» — всё это теперь делается механизмом.

3:48 · Янник Килхер о Promptbreeder: „Система просто переносит проблему в другой домен“

«

Мы не решили проблему, мы просто перенесли её в другой домен.

1:33 · Янник Килхер о Promptbreeder: „Система просто переносит проблему в другой домен“

«

Похоже, это просто игра с системой цитирований: ваше имя в списке, и вы получаете цитату, даже если писали другой раздел.

13:31 · Скандал на ICCV, критика Stanford HAI и робот-танцор Илона Маска: обзор новостей ML

«

Если GPT-3 считается фундаментальной моделью, то и ResNet-50 безусловно ей является.

16:48 · Скандал на ICCV, критика Stanford HAI и робот-танцор Илона Маска: обзор новостей ML

«

После поедания дыни в течение нескольких дней... Это станет моей новой любимой фразой.

09:21 · Скандал на ICCV, критика Stanford HAI и робот-танцор Илона Маска: обзор новостей ML

«

Это дает суперсилу людям, имеющим доступ к такому материалу... теперь это возможно не только правительству, но и любому человеку с домашним ПК.

09:24 · Янник Килчер: OpenAI суммаризирует книги, а Шмидхубер снова требует признания

«

Если Шмидхубер считает современные технологии лишь частным случаем его идей 90-х, то, пожалуйста, предскажите нам следующую большую вещь заранее.

14:31 · Янник Килчер: OpenAI суммаризирует книги, а Шмидхубер снова требует признания

«

Это алгоритм, который объединяет... шахматы и го, но выходит за их пределы — к покеру и Scotland Yard.

0:28 · Мартин Шмид о Player of Games: „Универсальный алгоритм для любой игры“

«

Что еще более безумно, эта система смогла решить две задачи Международной математической олимпиады.

0:29 · Как OpenAI научила нейросети доказывать олимпиадные теоремы

«

В этом и заключается магия доказательства в математике — это то, чем математики зарабатывают на жизнь.

8:37 · Как OpenAI научила нейросети доказывать олимпиадные теоремы

«

Вам больше не нужно отслеживать шаги градиентного спуска — проксимальный регуляризатор связывает начало и конец чистой математикой.

15:21 · Как iMAML побеждает вычислительный кошмар традиционного мета-обучения?

«

Вычисление полной матрицы Гессиана для модели с миллионами параметров попросту невозможно, поэтому авторы используют метод сопряженных градиентов.

45:43 · Как iMAML побеждает вычислительный кошмар традиционного мета-обучения?

«

Мой базовый принцип — любые эксперименты в статьях это мусор, пока они не докажут мне обратное.

07:11 · Как эффективно читать статьи по машинному обучению: гайд Янника Кильхера

«

Раздел со связанными работами (Related Work) я просто пропускаю.

22:05 · Как эффективно читать статьи по машинному обучению: гайд Янника Кильхера

«

Это как утверждать, что первая обезьяна, залезшая на дерево, уже делает прогресс в направлении полета на Луну.

16:22 · Янник Килхер: «Почему создание ИИ сложнее, чем мы думаем»

«

Наши системы видят мир немного иначе, чем мы. Вы можете использовать эту разницу, чтобы заставить их вести себя странно.

09:46 · Янник Килхер: «Почему создание ИИ сложнее, чем мы думаем»

«

Я искренне сбит с толку. В правилах обучения нет ничего, что зависело бы от пространственного положения нейрона. Почему определенный нейрон на одной стороне стремится отправлять информацию строго на ту же высоту с другой стороны — загадка.

33:56 · Как случайные нейросети учатся ходить с помощью пластичности Хебба

«

Вы совершаете ритуал, будто креститесь: подносите палец ко лбу, груди, плечам и произносите: „Технология — это хорошо, технология — это плохо, технология — это предвзято“.

38:47 · Как случайные нейросети учатся ходить с помощью пластичности Хебба

«

Если модель хороша, она будет производить хорошие данные, но в рамках математического ожидания мы не должны видеть улучшений.

06:39 · Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind

«

Вы все еще, образно говоря, едите собственные отходы, пусть даже вы и отфильтровали их по качеству.

26:20 · Янник Кильчер разобрал метод Reinforced Self-Training от Google DeepMind

«

Как ваша мысль отличается от того, что вы являетесь статистическим интерполятором своих обучающих данных?

14:06 · Янник Кильхер: «Человек — просто статистический интерполятор накопленных данных»

«

Лучший способ смягчить потенциальные угрозы технологии — предоставить её всем как можно быстрее и прозрачнее.

43:46 · Янник Кильхер: «Человек — просто статистический интерполятор накопленных данных»

«

Мы потратили больше всего времени на работу с ограничивающими рамками, а не на саму модель. Это показывает, насколько легко сейчас пользоваться такими вещами.

19:45 · Янник Кильчер: «Запустить DETR от Facebook проще, чем нарисовать рамку в Python»

«

В картинах Поллока явно очень много птиц, просто невероятно много птиц.

30:14 · Янник Кильчер: «Запустить DETR от Facebook проще, чем нарисовать рамку в Python»

«

Трансформеры быстро приходят на смену вашим любимым моделям. Вчера они заменили LSTM в NLP, сегодня мы видим, что они могут заменить свёртки в обработке изображений.

Axial-DeepLab: Как механизм осевого внимания заменяет свёртки в компьютерном зрении

«

В этой модели информация от любого пикселя может достичь любой другой точки изображения всего за два шага.

38:17 · Axial-DeepLab: Как механизм осевого внимания заменяет свёртки в компьютерном зрении

«

Язык имеет сильные априорные знания о признаках и поведении, необходимых для осмысленного взаимодействия.

05:08 · Янник Килчер: «Язык как ключ к эффективному обучению агентов»

«

Язык обеспечивает действительно хорошие абстракции для такого типа задач.

41:54 · Янник Килчер: «Язык как ключ к эффективному обучению агентов»

«

Вы не должны делать прунинг по амплитуде веса; вы должны делать его по тому, насколько веса движутся во время трансферного обучения.

00:13 · Movement Pruning: как адаптивное сжатие через fine-tuning делает BERT компактнее

«

В режиме экстремальной разреженности прунинг по движению опережает прунинг по амплитуде на огромную величину.

24:07 · Movement Pruning: как адаптивное сжатие через fine-tuning делает BERT компактнее

«

Если нам позволено фактически жульничать, мы можем найти промпты, которые заставят GPT-4 решить все вопросы.

20:44 · Студенты MIT опровергли заявление о стопроцентном успехе GPT-4 на экзаменах

«

Вся эта история выглядит крайне подозрительно.

2:31 · Студенты MIT опровергли заявление о стопроцентном успехе GPT-4 на экзаменах

«

Differences between a lot of these optimizers might just come down to the learning rate schedule.

09:40 · Learning Rate Grafting: как эффективно скрестить оптимизаторы в нейросетях

«

One algorithm dictates where we go, the other algorithm dictates how far we go.

08:36 · Learning Rate Grafting: как эффективно скрестить оптимизаторы в нейросетях

«

Это, возможно, один из самых запутанных видеороликов, но я надеюсь, вы все еще с нами.

36:34 · Implicit MLE: как обучать нейросети с дискретными алгоритмами

«

Мы essentially не имеем понятия, как сделать backprop через алгоритм поиска кратчайшего пути Дейкстры.

54:22 · Implicit MLE: как обучать нейросети с дискретными алгоритмами

«

С моей точки зрения, этот процесс представляет собой классический один шаг градиентного спуска в латентном пространстве.

25:14 · Как работают Gradient Origin Networks без явного кодера?

«

Высокую скорость обучения — модель демонстрирует понимание структуры датасета уже через 3 секунды после старта.

41:22 · Как работают Gradient Origin Networks без явного кодера?

«

Как отмечает Янник Килхер, нейронные сети склонны «читерить» во время градиентного спуска

Как архитектура Neural Interpreters объединяет глубокое обучение и программирование

«

Это невидимый и устойчивый к внешним воздействиям метод маркировки изображений, генерируемых диффузионными моделями.

0:13 · Tree-Ring Watermarks: невидимая защита AI-изображений от Янника Килчера

«

Даже если вы скажете злоумышленнику, что изображение помечено, он почти наверняка не сможет удалить этот знак без сильного искажения картинки.

3:49 · Tree-Ring Watermarks: невидимая защита AI-изображений от Янника Килчера

«

В этой работе мы беремся за сложную задачу обучения синтезу речи из нормализованного текста или фонем сквозным методом.

00:27 · Янник Килчер разобрал сквозную модель синтеза речи от DeepMind

«

Поскольку на старте обучения предсказания длины ошибочны, безусловные дискриминаторы не дают полезного сигнала.

25:31 · Янник Килчер разобрал сквозную модель синтеза речи от DeepMind

«

Результаты этой статьи находятся на грани абсурда.

Как предобучение трансформеров на Википедии помогает в обучении роботов

«

Предобученные модели стабильно превосходят классический Decision Transformer во множестве задач.

18:12 · Как предобучение трансформеров на Википедии помогает в обучении роботов

«

Это знамение времени — наши модели становятся одинаковыми для всех модальностей.

37:39 · Как предобучение трансформеров на Википедии помогает в обучении роботов

«

Линейное преимущество на одном слое умножается на N слоёв, превращая суммарную сложность обратно в квадратичную.

19:43 · Янник Килчер разобрал архитектуру разреженного внимания модели Big Bird

«

Эмпирические потери от отказа от полного внимания минимальны и полностью окупаются экономией памяти.

32:58 · Янник Килчер разобрал архитектуру разреженного внимания модели Big Bird

«

Это может проложить путь к будущему, где у нас будут гораздо более динамичные композиции моделей.

04:37 · Salesforce Research представила BLIP: универсальный ИИ для понимания и генерации изображений

«

Шумный веб-текст суб-оптимален для обучения компьютерного зрения и языка.

09:12 · Salesforce Research представила BLIP: универсальный ИИ для понимания и генерации изображений

«

Поскольку при обучении из распределения берется случайный сэмпл, а оптимизировать приходится жесткую функцию потерь L2, модели становится выгоднее усреднять значения, делая картинку размытой ради минимизации штрафа

07:38 · Как исследователи NVIDIA излечили вариационные автоэнкодеры от хронической размытости картинок

«

Честно говоря, будущие фреймворки глубокого обучения должны брать подобные вещи на себя автоматически, избавляя исследователей от необходимости писать такие низкоуровневые хаки вручную

21:51 · Как исследователи NVIDIA излечили вариационные автоэнкодеры от хронической размытости картинок

«

Я пришел к выводу, что это скорее сверточная сеть, чем трансформер или RNN.

08:11 · Янник Кильхер о модели RWKV: «Это, по сути, большая конволюционная сеть»

«

RWKV объединяет эффективное параллельное обучение трансформеров с эффективным инференсом RNN.

09:06 · Янник Кильхер о модели RWKV: «Это, по сути, большая конволюционная сеть»

«

Это может быть одним из следующих мини-прорывов в глубоком обучении.

02:23 · Как архитектура Performers решает проблему квадратичной сложности классических трансформеров

«

Мы получили линейный шаг, в то время как стандартные трансформеры изгибаются вверх из-за квадратичных требований.

44:12 · Как архитектура Performers решает проблему квадратичной сложности классических трансформеров

«

Для каждой непрерывной симметрии динамической системы существует соответствующая величина, значение которой сохраняется во времени.

01:50 · Ферран Алет: «Сохраняющиеся величины — это ключ к эффективности моделей»

«

Это как если бы Лорд Волан-де-Морт отвечал за безопасное использование магии.

08:59 · Янник Кильхер о LLaMA 2 и монополизации ИИ-индустрии

«

Я бы распространял этот инструмент, если бы хотел усложнить жизнь киберпреступникам, а не облегчить её.

36:27 · Янник Кильхер о LLaMA 2 и монополизации ИИ-индустрии

«

В программировании важно не только то, что код делает, но и то, как называются вещи.

46:18 · TransCoder: Как обучить ИИ переводить код без примеров?

«

Даже если вы можете написать правила, результат часто получается криптическим и трудным для понимания.

3:19 · TransCoder: Как обучить ИИ переводить код без примеров?

«

Это по сути языковая модель, но для пикселей.

1:03 · Янник Кильхер о модели Image GPT от OpenAI: «Генеративное обучение на пикселях»

«

Похоже, в этих генеративных моделях есть промежуточная стадия, где они представляют глобальную информацию.

20:33 · Янник Кильхер о модели Image GPT от OpenAI: «Генеративное обучение на пикселях»

«

Это не ИИ на блокчейне. Блокчейн нужен просто для регистрации сервисов и фасилитации платежей.

18:12 · Янник Килчер о SingularityNET: анализ архитектуры и рыночных стратегий

«

Это как ярмарка: ты покупаешь жетоны, чтобы тратить их внутри, но это не значит, что сама ярмарка управляется законами рынка.

22:13 · Янник Килчер о SingularityNET: анализ архитектуры и рыночных стратегий

«

В self-supervised обучении берется одна картинка, аугментируется двумя разными способами, пропускается через пайплайн, и в конце модель заставляют сближать эти представления, одновременно отдаляя их от представлений других картинок. Это абсолютно та же идея, что и в Word2Vec.

20:19 · Янник Кильхер разобрал классическую статью Google об алгоритме Word2Vec

«

Будучи Google, они могли бы просто выпустить код, работающий в распределенном дата-центре, но они этого не сделали... это действительно был шаг к своего рода демократизации ИИ.

30:35 · Янник Кильхер разобрал классическую статью Google об алгоритме Word2Vec

«

OpenAI с их речами о демократизации и то, что они делают на самом деле, находятся в 180 градусах друг от друга.

03:10 · OpenAI против Google и Meta: эпоха API, утечек LLaMA и чтения мыслей

«

Я сомневаюсь, что человек делает намного больше, чем просто статистически интерполирует свои тренировочные данные.

18:35 · OpenAI против Google и Meta: эпоха API, утечек LLaMA и чтения мыслей

«

Ничто не мешает этой модели скатиться к тривиальному решению, и для меня это похоже на магию.

09:48 · DeepMind представили алгоритм BYOL: новая веха в self-supervised обучении

«

DeepMind имеет историю публикаций за платным доступом и выдачи псевдокода с кучей ошибок.

29:58 · DeepMind представили алгоритм BYOL: новая веха в self-supervised обучении

«

Похоже, проще обучить хорошее представление, чем схлопнуться в константу из-за специфики обучения по шагам.

21:42 · DeepMind представили алгоритм BYOL: новая веха в self-supervised обучении

«

Слово «открытый» в названии OpenAI означает лишь то, что каждый должен пользоваться плодами созданного ИИ, но делиться самой наукой вовсе не обязательно

11:18 · Илон Маск против OpenAI и новые скандалы вокруг Google Gemini

«

Если эти модели так близки к созданию биооружия на заднем дворе, почему бы вам просто не перевернуть знак в коде и не использовать их, чтобы вылечить кучу болезней?

25:43 · Илон Маск против OpenAI и новые скандалы вокруг Google Gemini

«

Смартфон Samsung фактически игнорирует входящий сигнал и подставляет изученную карту поверхности Луны.

13:18 · Самая важная неделя в ИИ: релиз GPT-4, Office Copilot и возвращение GAN

«

Это горький урок — при достаточном масштабе данных практически любая архитектура начинает показывать выдающиеся результаты.

07:10 · Самая важная неделя в ИИ: релиз GPT-4, Office Copilot и возвращение GAN

«

Это была просто демонстрация, но в конце это действительно заработало. И я такой: «О черт. Бросайте всё, разрабатывайте идею, пишите статью!»

0:26 · Plain Self-Ensembles: Янник Кильхер о случайном открытии в машинном обучении

«

Это тот мир, в котором я хочу жить: где мы сотрудничаем в исследованиях гораздо больше, и это похоже на разработку программного обеспечения с открытым исходным кодом.

1:31 · Plain Self-Ensembles: Янник Кильхер о случайном открытии в машинном обучении

«

Эффект ансамбля здесь может быть связан не с извлечением большей информации из данных, а с функциональным ландшафтом и исследованием различных минимумов.

1:15:03 · Plain Self-Ensembles: Янник Кильхер о случайном открытии в машинном обучении

«

Система может быть довольно легко обойдена. Если объединить это с тем, что мы внедряем механизм с потенциально гнусными последствиями, если кто-то недобросовестный получит над ним контроль, то это не сулит ничего хорошего.

01:20 · Янник Килчер о рисках системы CSAM-детекции Apple: «Огромный потенциал злоупотреблений»

«

Если я политическая партия, я просто вношу в базу данных то, что, как я знаю, есть только у оппозиции, и в ту же секунду их телефоны начинают светиться красным.

41:47 · Янник Килчер о рисках системы CSAM-детекции Apple: «Огромный потенциал злоупотреблений»

«

Вы можете изменить правила шахмат, но вы не можете оценить, как в них будут играть люди, потому что у вас нет тысячи лет человеческой истории изучения этих правил.

2:13 · Как AlphaZero и Владимир Крамник переосмыслили правила шахмат с помощью ИИ

«

Если два идеальных игрока играют друг против друга, результатом, скорее всего, всегда будет ничья.

23:50 · Как AlphaZero и Владимир Крамник переосмыслили правила шахмат с помощью ИИ

«

Мы можем позволить ИИ предсказывать, что произойдет, если мы изменим, например, налоговую политику.

38:12 · Как AlphaZero и Владимир Крамник переосмыслили правила шахмат с помощью ИИ

«

Если вы просто наклоните эту схему набок, вы увидите структуру, которая до боли напоминает усложненную рекуррентную нейронную сеть

31:36 · Как Feedback Transformer решает проблему многошаговых рассуждений в ИИ?

«

Похоже, что этот выбор в пользу добавления текста делает модель в значительной степени именно текстовой моделью.

02:57 · Яблоко или iPod? Как текст обманывает зрение нейросетей

«

Я обожаю обратный OCR, именно так я теперь буду называть процесс письма.

32:52 · Яблоко или iPod? Как текст обманывает зрение нейросетей

«

Трудность в этой задаче — построение вспомогательных объектов.

01:05 · Янник Кильхер об AlphaGeometry: «Прорыв в геометрии без участия людей»

«

Это работа, которая очень хорошо справляется с очень, очень узкой нишевой задачей.

34:30 · Янник Кильхер об AlphaGeometry: «Прорыв в геометрии без участия людей»

«

Создатели капсулы Sarco планируют автоматизировать этот процесс, внедрив скрининг-систему на базе искусственного интеллекта для оценки вменяемости пользователя.

33:49 · DeepMind против Google: гонка супермоделей Gopher и GLaM

«

Архитектура RETRO позволяет отделить вычислительную мощность от объема знаний, подгружая факты на этапе инференса.

09:59 · DeepMind против Google: гонка супермоделей Gopher и GLaM

«

В этой статье они уже в названии прямо говорят: это побеждает GAN.

0:44 · Диффузионные модели: новая эра генерации изображений

«

Это своего рода вечная война между теми, кто делает математически корректные вещи, и теми, кто просто выбрасывает всё, что не влияет на итоговое качество.

50:28 · Диффузионные модели: новая эра генерации изображений

«

Мы должны коллективно перестать придавать такое значение капризным обвинениям в «проблематичности» и начать обсуждать технологии в нейтральных терминах.

10:31 · Meta AI против цензуры: как научная модель Galactica стала жертвой «профессиональных жалобщиков»

«

Ваша предиктивная клавиатура на телефоне тоже опасна и неэтична? А ручка? В петле всегда есть человек, который принимает или отклоняет предсказание.

6:29 · Meta AI против цензуры: как научная модель Galactica стала жертвой «профессиональных жалобщиков»

«

Я бы предпочел, чтобы мой компилятор писал ассемблер, а не человек.

41:33 · OpenAI Codex: революция в разработке или продвинутая поисковая машина по GitHub?

«

Супермаска — это бинарная маска, которую вы накладываете на случайно инициализированную сеть, чтобы она работала лучше, чем случайная инициализация.

00:14 · Как супермаски и лишние нейроны решают проблему катастрофического забывания в ИИ

«

Вам не нужно хранить всю сеть, достаточно хранить случайное число (seed) для ее генерации — шах и мат.

29:57 · Как супермаски и лишние нейроны решают проблему катастрофического забывания в ИИ

«

Навыки обеспечения соблюдения норм переносятся от нормы к норме, в то время как навыки соблюдения специфичны для каждой нормы.

09:50 · Как «глупые правила» помогают искусственным агентам учиться порядку

«

Начальная политика имеет на удивление высокое влияние на эффективность обучения.

20:30 · Исследование Google Brain: как правильно настроить on-policy RL-агента

«

Вам все равно придется долго и упорно настраивать гиперпараметры под свою конкретную задачу.

38:11 · Исследование Google Brain: как правильно настроить on-policy RL-агента

«

Для GPU это будет ощущаться так, будто постоянно приходят новые батчи, хотя на самом деле это одни и те же данные, пока не поступит что-то свежее.

09:12 · Янник Кильхер: «Data Echoing ускоряет обучение нейросетей за счёт повтора данных»

«

Если у вас крупная компания с проблемами в пайплайне данных, внедрение этого метода — очевидное решение (no-brainer).

39:09 · Янник Кильхер: «Data Echoing ускоряет обучение нейросетей за счёт повтора данных»

«

Это именно то, о чем этот новый режим NLP: вы просто помещаете все как строку, аннотируете ее умным способом, и это позволяет модели выяснить многое о входе.

16:53 · TAPAS: как нейросети учатся «читать» таблицы без SQL

«

Я крайне удивлен, что это работает, учитывая, насколько неоднозначно то, что модель должна делать с этими операциями.

26:19 · TAPAS: как нейросети учатся «читать» таблицы без SQL

«

Интеллект системы — это мера эффективности приобретения ею навыков в рамках определенного спектра задач с учетом априорных знаний, опыта и сложности обобщения.

00:41 · Шолле против ИИ-тестов: можно ли измерить разум математически?

«

Априорные знания отражают не общий объем информации в программе, а количество релевантной информации для конкретной задачи.

24:52 · Шолле против ИИ-тестов: можно ли измерить разум математически?

«

BRC показывает интересное свойство: эти рекуррентные нейронные сети могут помнить важные вещи гораздо дольше, чем наши текущие архитектуры.

00:40 · Янник Килчер: «Биологическая бистабильность — ключ к долгой памяти нейросетей»

«

В режиме бистабильности даже маленькие возмущения сигнала не смогут вывести ячейку из её состояния, что и позволяет ей помнить.

21:26 · Янник Килчер: «Биологическая бистабильность — ключ к долгой памяти нейросетей»

«

Если модель чувствительна к признаку, который вы искусственно внедрили и которого нет в реальном мире, вы можете быть уверены: она обучалась на ваших данных.

17:52 · Янник Килхер: «Радиоактивные метки» позволят ловить ИИ-компании на краже данных

«

В высоких размерностях случайные векторы почти всегда ортогональны — это основа нашего статистического теста.

15:51 · Янник Килхер: «Радиоактивные метки» позволят ловить ИИ-компании на краже данных

«

В multi-task learning мы хотим обучаться на разных задачах одновременно... и надеемся, что комбинация задач позволит выучить их лучше, чем по отдельности.

04:13 · Хирургия градиентов: как метод PCGrad решает проблемы многозадачного обучения

«

Если я буду выступать в роли адвоката дьявола: я мог бы либо использовать PCGrad, либо просто снизить скорость обучения.

22:23 · Хирургия градиентов: как метод PCGrad решает проблемы многозадачного обучения

«

Интеллект процесса кодируется не финальной производительностью системы в одной среде, а возможностью применить один и тот же базовый процесс к совершенно разным задачам.

04:59 · Франсуа Шолле против больших данных: почему ИИ не умнеет от гигабайтов

«

По мнению Франсуа Шолле, истинный интеллект заключается в способности к генерализации — умении адаптироваться и решать абсолютно новые проблемы, к которым система не была подготовлена заранее.

02:43 · Франсуа Шолле против больших данных: почему ИИ не умнеет от гигабайтов

«

Мне кажется, мы просто смещаем проблему исследования и эксплуатации на один уровень выше.

30:38 · Как Agent57 от DeepMind превзошел человека в бенчмарке Atari

«

Мы подходим к области, где занимаемся мета-оверэнжинирингом наших подходов под специфику конкретного бенчмарка Atari.

31:06 · Как Agent57 от DeepMind превзошел человека в бенчмарке Atari

«

Если вы решили, что эти четверо преступники, то вы правы, а остальные трое — законопослушные граждане.

00:14 · Янник Кильхер: «Почему алгоритмы не могут распознать преступника по лицу»

«

Эта часть исследования — абсолютный мусор.

31:51 · Янник Кильхер: «Почему алгоритмы не могут распознать преступника по лицу»

«

Can we just stop with the variants on BERT? We get to use BERT for everything.

05:09 · Янник Килхер о метрике BLEURT: когда нейросети оценивают друг друга

«

It's like seeing these images of plugging in the power strip into itself and you have infinite power.

30:42 · Янник Килхер о метрике BLEURT: когда нейросети оценивают друг друга

«

Если вы хотите создать модель, которая понимает, что перед ней разные ракурсы одного и того же объекта, вам нужно отделить структуру от точки зрения.

03:05 · Янник Кильхер: «Генерация наборов изображений через энергетические модели»

«

Использование бинарных векторов позволяет кодировать гораздо большее число идентификаторов, чем при классическом One-Hot кодировании.

13:23 · Янник Кильхер: «Генерация наборов изображений через энергетические модели»

«

Эффект ИИ означает, что когда вы думаете, что решение задачи представляет интеллект, то после нахождения решения оно оказывается не интеллектом, а просто „взломом“.

30:02 · Франсуа Шолле о тесте ARC: „Попытка формализовать человеческое мышление“

«

Наш основной вклад — это сам общий фреймворк, предлагающий способ, как фидбек пользователей может непрерывно улучшать производительность модели без переобучения в условиях few-shot промптинга.

12:45 · Янник Килхер разобрал архитектуру динамической памяти MemPrompt для GPT-3

«

Персонализация может стать действительно отличным применением этой системы для того, чтобы подталкивать GPT-3 к индивидуальному взаимодействию с пользователем.

31:53 · Янник Килхер разобрал архитектуру динамической памяти MemPrompt для GPT-3

«

Это близко к тому, что люди представляют под искусственным интеллектом: компьютерная программа, которая учится немедленно.

01:18 · Мадан и Тандон о методе «памяти» для адаптации GPT-3

«

Successor representations... they kind of trade off the advantages of model-free... with the advantages of model-based.

06:46 · Янник Кильхер: «Преемственные представления — это ключ к пониманию мира агентами»

«

It's kind of like dreaming so given that you have a model T... you can now sample state trajectories.

29:58 · Янник Кильхер: «Преемственные представления — это ключ к пониманию мира агентами»

«

Вы запускаете приближение реальной программы вместо того, чтобы просто смотреть на ее план и пытаться предсказать результат — привет проблеме остановки.

17:58 · Синтетическая чашка Петри: Как микро-модели ускоряют поиск нейросетевых архитектур

«

Если вы действительно дадите волю вашему оптимизатору, он злоупотребит каждой доступной мелочью для точечного соответствия валидационному лоссу.

30:15 · Синтетическая чашка Петри: Как микро-модели ускоряют поиск нейросетевых архитектур

«

Супермаски — это просто способ обучить нейронную сеть в грубой форме. Я не думаю, что здесь есть глубокая связь между маской и сетью.

20:53 · Янник Кильхер: «Супермаски и суперпозиция — это две разные идеи, случайно оказавшиеся в одной статье»

«

Этот метод будет дважды наказывать классификатор, который менее уверен в себе, что приведет к росту системного смещения.

35:12 · Янник Кильхер: «Супермаски и суперпозиция — это две разные идеи, случайно оказавшиеся в одной статье»

«

Классический алгоритм оптимизации всегда упадет в яму, потому что именно там он получает немедленную награду.

08:25 · Почему классический ИИ падает в ямы, а алгоритм POET побеждает?

«

Если я посмотрю на этот алгоритм, мне становится страшно от мысли попытаться реализовать его самостоятельно.

23:54 · Почему классический ИИ падает в ямы, а алгоритм POET побеждает?

«

В текстовом квесте команды нужно вводить вручную строками текста, и комбинаторная сложность возможных фраз огромна.

03:52 · Янник Килчер разобрал ИИ-агента LeDeepChef для текстовых игр

«

Критически важную информацию, если есть возможность, всегда стоит выносить в отдельные предобработанные модули.

24:52 · Янник Килчер разобрал ИИ-агента LeDeepChef для текстовых игр

«

Техническая предвзятость чаще всего проистекает из «грязных» наборов данных, а не из того, какой пол или цвет кожи имеет инженер.

31:06 · Янник Килчер: «Отчет AI Now об ИИ — это манипуляция»

«

Рекомендация о привязке бонусов к найму по расе — это прямой призыв к расистскому и сексистскому найму.

13:56 · Янник Килчер: «Отчет AI Now об ИИ — это манипуляция»

«

Если ваша цель действительно амбициозна, то мета-контроллер, который просто хочет достичь цели — это плохо.

36:48 · Янник Килчер: «Почему великие цели нельзя достичь прямым планированием»

«

Ступени для создания автомобиля могут не иметь ничего общего с автомобилями.

28:07 · Янник Килчер: «Почему великие цели нельзя достичь прямым планированием»

«

Это хороший пример того, как можно обмануть самого себя, когда у тебя есть гипотеза и ты собираешь только те данные, которые ей соответствуют.

01:03 · Янник Кильхер: «Теория радикализации на YouTube — это пример самообмана исследователей»

«

Поскольку сообщество «альт-райт» очень маленькое, практически гарантировано, что первый комментарий любого пользователя будет оставлен где-то за его пределами.

35:09 · Янник Кильхер: «Теория радикализации на YouTube — это пример самообмана исследователей»

«

Подобные уязвимости создают серьезные риски для безопасности ИИ-систем.

01:54 · Янник Килхер представил метод обнаружения состязательных атак под шумом

«

Проведя обратный дедуктивный анализ, система безошибочно указывает на истинный класс, фактически возвращая точность атакованной модели к показателям чистой сети.

28:34 · Янник Килхер представил метод обнаружения состязательных атак под шумом

«

Каждая клетка здесь — это автономная сущность, которая может смотреть только на своих соседей, чтобы решить, останется ли она в живых.

01:56 · Янник Кильчер о Neural Cellular Automata: «локальные правила, сложный результат»

«

Это напоминает то, как живые клетки чувствуют химические градиенты в своих районах.

05:06 · Янник Кильчер о Neural Cellular Automata: «локальные правила, сложный результат»

«

Авторы говорят, что нам следует отойти от рекуррентных нейросетей.

00:27 · Янник Килхер о «Attention Is All You Need»: революция в NLP

«

Трансформеры — это парадигмальный сдвиг в обработке последовательностей.

13:05 · Янник Килхер о «Attention Is All You Need»: революция в NLP

«

Это новый претендент в городе. Он использует меньше памяти GPU, у него выше пропускная способность, ниже задержка, и он лучше масштабируется, чем трансформеры.

0:28 · Retentive Network: сможет ли линейная архитектура заменить Transformer?

«

Поскольку всё линейно, мы можем Claim: мы одновременно и рекуррентная сеть, и параллельная сеть.

14:47 · Retentive Network: сможет ли линейная архитектура заменить Transformer?

«

Когда вы даете людям возможность и инструменты создавать, когда вы даете им доступ и свободу делать то, что они хотят, они создают абсолютно великие вещи.

06:08 · Янник Кильхер о Stable Diffusion: «Демократизация AI важнее контроля»

«

Демократизация означает предоставление людям доступа ко всему, позволяя им брать вещи для себя, улучшать их и возвращать сообществу.

21:20 · Янник Кильхер о Stable Diffusion: «Демократизация AI важнее контроля»

«

Любой человек в мире мог бы случайно получить такое совпадение моделей, графиков и иметь лишние деньги на пару тысяч TPU-дней. Не переживайте, процесс рецензирования в полной безопасности

02:39 · Янник Килхер: «Трансформеры — это самые универсальные вычислители»

«

Трансформер — это вроде как самый общий инструмент из всех, что у нас сейчас есть в глубоком обучении, который мы способны успешно обучать

25:40 · Янник Килхер: «Трансформеры — это самые универсальные вычислители»

«

Мы никогда явно не призывали сеть учить эти правила... мы просто обучали стандартную нейросеть, и она сама обнаружила закон

16:57 · Янник Кильхер объяснил феномен гроккинга на алгоритмических датасетах OpenAI

«

Машинное обучение в целом гораздо лучше справляется с оценкой того, подходят ли две вещи друг другу, чем с генерацией новой сущности с нуля.

07:36 · Как Tree of Thoughts превращает LLM в алгоритмы поиска

«

Мы получили своего рода генератор случайных слов, потому что вся остальная часть алгоритма по сути реализована самим кодом и заданными ограничениями.

24:29 · Как Tree of Thoughts превращает LLM в алгоритмы поиска

«

Это безумно полезный продукт. Особенно если вы пишете какой-то шаблонный код, эта штука просто напишет для вас целую функцию.

00:51 · ИИ-кодинг: революция в разработке или кража open-source кода?

«

GitHub по сути использует вашу работу для создания собственной проприетарной системы.

03:38 · ИИ-кодинг: революция в разработке или кража open-source кода?

«

Наши люди обладают силой любви и решимости, а это всегда побеждает.

09:30 · Янник Кильхер объявил о релизе полностью открытого ИИ OpenAssistant

«

Появление OpenAssistant — это абсолютный геймчейнджер для бизнеса и для всех, кто хочет работать в open source.

04:32 · Янник Кильхер объявил о релизе полностью открытого ИИ OpenAssistant

«

Это pretty big step towards first of all making transformers more deep and second of all applying the same models to very very different modalities of data.

01:23 · Янник Килхер: «Perceiver — это новый этап эволюции трансформеров»

«

The queries essentially say what kind of things I would like to know of the incoming data and the keys are say for each pixel in the data say what kind of things that particular pixel offers to the model.

15:28 · Янник Килхер: «Perceiver — это новый этап эволюции трансформеров»

«

Это не будет долгое видео, потому что концепция довольно простая.

00:13 · Янник Кильхер: «MLP-Mixer — простая альтернатива трансформерам?»

«

Если вы хотите что-то опубликовать, найдите метрику, в которой вы выигрываете.

15:55 · Янник Кильхер: «MLP-Mixer — простая альтернатива трансформерам?»

«

Её преимущество в том, что она простая, а значит, хорошо масштабируется.

27:44 · Янник Кильхер: «MLP-Mixer — простая альтернатива трансформерам?»

«

Я не верю ни на секунду, что люди так беспокоятся о безопасности. Они просто облекают свои амбиции в язык заботы о человечестве.

13:27 · Сэм Альтман уволен: за что совет директоров OpenAI сместил CEO?

«

Похоже, что мы наблюдаем очень скоординированную кампанию по производству хайпа.

05:20 · Янник Кильхер: «Хайп вокруг Devin AI искусственно раздут»

«

Исследования LLM стали похожи на фармацевтические исследования, где просто тестируют все комбинации.

11:21 · Янник Кильхер: «Хайп вокруг Devin AI искусственно раздут»

«

Если мы тренируемся на данных, охватывающих весь спектр человеческого языка, нужные нам задачи будут изучены неявно.

26:38 · Янник Килчер о GPT-2: «Модель учится задачам без обучения»

«

Это не совсем опасно — выпускать это исследование, это лишь отсрочка неизбежного.

11:02 · Янник Килчер о GPT-2: «Модель учится задачам без обучения»

«

Вместо спецификации дискретной последовательности скрытых слоев мы параметризуем производную скрытого состояния с помощью нейросети.

0:40 · Как устроены нейросети без слоев: подробный разбор концепции Neural ODE

«

Эти непрерывные модели глубины имеют постоянную стоимость памяти и адаптируют стратегию оценки к каждому входу.

0:54 · Как устроены нейросети без слоев: подробный разбор концепции Neural ODE

«

Наша область теперь — это просто мемы.

09:42 · Янник Кильхер о прибыли DeepMind: «Это похоже на бухгалтерский трюк»

«

DeepMind, вышедшая в плюс, может быть скорее бухгалтерским трюком, чем чем-либо еще.

26:57 · Янник Кильхер о прибыли DeepMind: «Это похоже на бухгалтерский трюк»

«

Flamingo — это по сути то же самое, чем была GPT-3 для языка, но теперь для изображений и текста.

0:30 · Как DeepMind Flamingo и Google LiT меняют мультимодальный ИИ

«

Не пытайтесь реализовывать RL-алгоритмы самостоятельно. Это боль.

18:00 · Как DeepMind Flamingo и Google LiT меняют мультимодальный ИИ

«

Масштабирование размера предобученного текстового энкодера важнее, чем масштабирование размера диффузионной модели.

03:01 · Эпоха текстовых генераторов: детальный разбор Imagen, DALL-E 2 и CogView 2

«

Это не обязательно замена традиционного художника, это больше похоже на замену человека, работающего в Photoshop.

14:56 · Эпоха текстовых генераторов: детальный разбор Imagen, DALL-E 2 и CogView 2

«

В сущности, если вы подаете последовательность токенов, все внутренние произведения вычисляются, все соединено со всем.

04:51 · Longformer: как эффективно анализировать длинные документы

«

Longformer — это то, что сверточная нейронная сеть делает для полносвязных слоев, он делает для трансформеров.

11:07 · Longformer: как эффективно анализировать длинные документы

«

Мы хотим оптимизировать награду, и нам на самом деле не важно, если что-то где-то неконсистентно.

17:31 · EfficientZero: как ИИ учится играть в Atari почти без данных

«

Это не метод, выведенный из принципов; они посмотрели, что не работает, и исправили основные ошибки по одной.

28:20 · EfficientZero: как ИИ учится играть в Atari почти без данных

«

Поскольку некоторые из признаков почти гарантированно ведут себя одинаково, мы можем проводить нормализацию по ним.

20:04 · Как Group Normalization решает проблему обучения нейросетей на малых батчах

«

Важное преимущество заключается в том, что групповая нормализация вырывается вперед весьма радикально, когда вы работаете в режиме малых батчей.

24:36 · Как Group Normalization решает проблему обучения нейросетей на малых батчах

«

Если модель была номером один в мире на v1, она останется номером один и на v2.

06:20 · Исследование ImageNet v2: почему нейросети ошибаются на новых данных

«

Это кажется свойством данных, а не свойством нейронных сетей.

08:21 · Исследование ImageNet v2: почему нейросети ошибаются на новых данных

«

Потрясающе, свертки — для лузеров, мы за локально применяемые линейные трансформации.

25:55 · Трансформеры против сверток: как архитектура TransGAN генерирует изображения без CNN

«

Журналисты не понимают, что вопрос о том, обучалась ли модель на защищенных авторским правом материалах, бессмыслен, и любой ответ — просто случайный шум.

03:45 · Янник Килчер: «Jamba, DBRX и эра синтетических данных»

«

Эпоха проверки фактов на основе LLM, возможно, началась.

10:08 · Янник Килчер: «Jamba, DBRX и эра синтетических данных»

«

Пока в США открывают код Grok-1 и доминируют на рынке чипов, что может предложить Европа? Еще один баннер на сайте?

10:43 · Илон Маск открыл код Grok-1, а Nvidia представила чипы Blackwell

«

Если ваша визуальная система работает настолько эффективно, что в любом спорном моменте вы доверяете именно ей, то зачем вообще нужны остальные датчики?

19:46 · Камера вместо радара: почему автопилот Tesla отказывается от датчиков

«

Если кто-то приводит это как пример того, насколько плохи большие языковые модели, не упоминая всех этих нюансов, он либо не знает, либо хочет вас обмануть.

04:15 · Янник Килчер: «DeepMind прогнозирует погоду лучше человека»

«

В будущем разница между тем, как вы ведете себя в Twitter и в LinkedIn, будет все больше стираться.

18:13 · Янник Килчер: «DeepMind прогнозирует погоду лучше человека»

«

Люди просто добавляют пакетную нормализацию в сети и, возможно, не совсем понимают, что она делает.

0:41 · Как алгоритм Batch Normalization ускоряет обучение глубоких нейросетей

«

Введение параметров Gamma и Beta может показаться избыточным, но это очень мощный инструмент.

09:34 · Как алгоритм Batch Normalization ускоряет обучение глубоких нейросетей

«

Это не столько научное достижение, сколько техническое достижение.

12:08 · Как Microsoft обучила Turing-NLG: разбор DeepSpeed и ZeRO

«

Я не думаю, что язык будет решен простым добавлением параметров.

21:01 · Как Microsoft обучила Turing-NLG: разбор DeepSpeed и ZeRO

«

Сегодня я могу запустить и дообувить модель BERT, не выходя из дома, на бесплатном сервере Google Colab или на своей домашней видеокарте. Но это стало возможным только потому, что в свое время Google вложила гигантские ресурсы.

12:31 · Тупик масштабирования ИИ: почему Кильхер не верит в вычислительный кризис

«

Мы идем дальше и реализуем целый процессор в GPT, так что я могу запустить любую программу, какую захочу.

0:26 · Янник Кильхер создал симулятор CPU на базе промптов к GPT

«

Это действительно самый дорогой процессор в истории. Требуются сотни инструкций только для того, чтобы добраться до первого FizzBuzz.

06:58 · Янник Кильхер создал симулятор CPU на базе промптов к GPT

«

Это гигантская трата денег и времени, но, знаете, вы можете поиграть в Змейку, а что еще нужно?

21:18 · Янник Кильхер создал симулятор CPU на базе промптов к GPT

«

Подход с предсказанием резидуала от базовой эвристики может быть гораздо более общим методом, чем мы привыкли видеть.

04:20 · Uber меняет XGBoost на Deep Learning, а MuZero берется за сжатие YouTube: главные новости ML

«

4,7% экономии битрейта может показаться мелочью, но это гигантская цифра для перегруженной инфраструктуры интернета.

09:28 · Uber меняет XGBoost на Deep Learning, а MuZero берется за сжатие YouTube: главные новости ML

«

GPL — это своего рода вирус: если она применяется к части ПО, вся система должна стать открытой, иначе вы нарушаете лицензию.

15:14 · Янник Кильчер о скандалах в ML: алгоритмы увольнения в Amazon и юридические риски ИИ

«

Это ты против машины. Amazon стоит на втором месте после PayPal по качеству клиентской поддержки — к черту их.

22:45 · Янник Кильчер о скандалах в ML: алгоритмы увольнения в Amazon и юридические риски ИИ

«

В машинном обучении трудно бороться с фейками, потому что если вы не получили мои цифры, вам просто скажут, что вы сделали это неправильно.

25:38 · Янник Кильчер о скандалах в ML: алгоритмы увольнения в Amazon и юридические риски ИИ

«

Попытка остановить пользователей через ограничения в лицензии столь же неэффективна, как попытка толкать предмет длинным куском вареных спагетти.

07:11 · Янник Кильхер: «Лицензии Stable Diffusion и BLOOM — это юридическая ловушка»

«

Вы не должны иметь власти контролировать деятельность людей через их ручки. То же самое касается текстовых редакторов, компиляторов и языковых моделей.

07:53 · Янник Кильхер: «Лицензии Stable Diffusion и BLOOM — это юридическая ловушка»

«

По сути, ИИ — это просто инструмент. Как он может придумать что-то новое?

05:29 · Янник Кильхер: «ИИ как изобретатель — это PR или прогресс?»

«

Природа плюс роботы — это сочетание никогда ни к чему хорошему в истории не приводило.

20:33 · Янник Килчер: NVIDIA GTC'21, успех MuJoCo и ИИ в Google Таблицах

«

Мы все знаем: больше кадров в секунду означает, что ты лучший игрок.

05:04 · Янник Килчер: NVIDIA GTC'21, успех MuJoCo и ИИ в Google Таблицах

«

Это невероятно — получить почти 95% точности всего со всеми 250 размеченными примерами, когда обычный датасет требует 50 тысяч.

12:53 · Разбор FixMatch: как обучить нейросеть на 250 примерах вместо 50 тысяч

«

Такого рода исследования, где вы бьетесь за доли процента точности, в то время как один неверный шаг в выборе гиперпараметра стоит вам 10%, выглядят немного сомнительно.

19:29 · Разбор FixMatch: как обучить нейросеть на 250 примерах вместо 50 тысяч

«

Если желание жаловаться становится сильнее, чем изучение реальных цифр, критика может быть несколько неуместной.

07:57 · Янник Килхер о сознании ИИ: «Илья Суцкевер может быть прав»

«

Сознание — это физический процесс, происходящий в мозге в результате взаимодействия материи.

15:44 · Янник Килхер о сознании ИИ: «Илья Суцкевер может быть прав»

«

Мы хотим снять с RL-алгоритма бремя извлечения полезной информации из пространства наблюдений.

08:10 · CURL: обучение ИИ на «сырых» пикселях без учителя

«

Контрастивное обучение — это тот самый «секретный соус», который создаст для нас качественные представления.

08:37 · CURL: обучение ИИ на «сырых» пикселях без учителя

«

Ничто не имеет больше степеней свободы, чем реальность.

06:23 · Янник Килхер: роботы Facebook, год EleutherAI и «неожиданная» сложность автопилота

«

Большинство систем ИИ-ассистентов ошибаются, пытаясь моделировать идеального человека, которого не существует.

22:49 · Янник Килхер: роботы Facebook, год EleutherAI и «неожиданная» сложность автопилота

«

Два кошачьих глаза — это больше «кошачести», чем один, поэтому при оптимизации вы получаете такие триповые картинки.

06:09 · Как работает OpenAI Microscope: пошаговое руководство по визуализации признаков ИИ

«

Чем выше вы поднимаетесь по слоям, тем более сложные признаки строит сеть.

02:19 · Как работает OpenAI Microscope: пошаговое руководство по визуализации признаков ИИ

«

Для модели ошибка в классификации человека и примата технически идентична ошибке между яхтой и парусником.

08:42 · ИИ на рентгене, закрытие HealthStreams и Юрген Шмидхубер в Саудовской Аравии

«

Похоже, люди хотят, чтобы их идеология правила реальностью, но я не думаю, что это стоящая цель.

06:52 · ИИ на рентгене, закрытие HealthStreams и Юрген Шмидхубер в Саудовской Аравии

«

Если инженеры не научатся переносить биологические принципы в архитектуры ИИ, индустрии придется платить огромную вычислительную цену, симулируя каждый элемент мозга тысячами стандартных искусственных нейронов.

11:43 · Дайджест ML News: цифровой двойник Nvidia и сложность биологических нейронов

«

Эта ситуация демонстрирует фундаментальный провал внедрения машинного обучения, где стимулы расставлены неверно, а алгоритмы лишены гибкости.

17:00 · Дайджест ML News: цифровой двойник Nvidia и сложность биологических нейронов

«

Применять это к нижним слоям нейронных сетей кажется мне не совсем принципиальным подходом.

18:41 · Как Manifold Mixup делает нейросети устойчивее через «сплющивание» скрытых слоев

«

Если вы ограничите размер адверсариальной атаки, она может просто не достичь границы решения, которую мы отодвинули.

20:35 · Как Manifold Mixup делает нейросети устойчивее через «сплющивание» скрытых слоев

«

Выравнивание полезности представления с его линейной классифицируемостью — это то, с чем я не согласен.

10:33 · Янник Килчер: «Одного фото достаточно для обучения первых слоев нейросети»

«

Технически это правда, что используется одно изображение, но если вы разбиваете его на множество фрагментов, это уже не совсем одно изображение.

06:14 · Янник Килчер: «Одного фото достаточно для обучения первых слоев нейросети»

«

Процесс рецензирования — это просто своего рода случайная неприятность для людей, через которую им приходится проходить.

02:31 · Янник Килчер: «Система рецензирования в машинном обучении полностью сломана»

«

Если я отклоню действительно хорошую статью, я всегда могу сказать: „Ничего страшного, авторы просто отправят её на следующую конференцию“.

09:17 · Янник Килчер: «Система рецензирования в машинном обучении полностью сломана»

«

Рецензирование не работает, peer review в машинном обучении — это шутка.

19:12 · Янник Килчер: «Система рецензирования в машинном обучении полностью сломана»

«

Вместо использования большой языковой модели для интерпретации инструкций, мы можем использовать её для оценки вероятности того, что конкретный навык продвинет нас к выполнению высокоуровневой задачи.

12:57 · Как система SayCan от Google объединяет нейросети и робототехнику

«

Модульность — это настоящий ключ. Идея предоставить модели высокоуровневые знания и снабдить её набором модульных внешних инструментов невероятно сильна.

26:11 · Как система SayCan от Google объединяет нейросети и робототехнику

«

Меня изрядно удивило, что это работает, ведь эти два конвейера фактически не общаются друг с другом.

06:30 · Как нейросеть CornerNet находит объекты по углам: детальный разбор архитектуры

«

В месте, где должна быть рамка, у вас нет локальной информации об объекте, потому что объекты обычно не прямоугольные.

15:40 · Как нейросеть CornerNet находит объекты по углам: детальный разбор архитектуры

«

Мы используем обучение с подкреплением, чтобы обучить агента, который может проектировать уровень.

01:33 · Янник Килчер о PCGRL: «Дизайн уровня как игра»

«

Агент учится производить валидные и хорошие уровни.

06:21 · Янник Килчер о PCGRL: «Дизайн уровня как игра»

«

Это не просто вопрос того, какие у вас карты, это вопрос того, сколько денег вы вкладываете.

05:06 · Математический разбор покерной задачи Даниэля Негреану

«

Вы предполагаете, что ваш оппонент умен, ваш оппонент предполагает, что вы умны.

12:06 · Математический разбор покерной задачи Даниэля Негреану

«

Мы трансформируем обучение с подкреплением в форму обучения с учителем, переворачивая традиционный RL с ног на голову.

0:28 · Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL

«

В этой технике мы на самом деле имеем обучение поведению, мы напрямую выводим ценность действия.

14:10 · Шмидхубер выворачивает ИИ наизнанку: детальный разбор концепции Upside-Down RL

«

Модель будет учиться из своего собственного воображения вместо того, чтобы реально совершать действия в реальном мире.

03:59 · Dream to Control: подробный разбор обучения агентов в латентном пространстве

«

Эта запутанная оценка ценности позволяет смотреть далеко в будущее, учитывая информацию из шагов, выходящих за рамки текущего окна.

21:44 · Dream to Control: подробный разбор обучения агентов в латентном пространстве

«

В научном сообществе до сих пор нет единого консенсуса относительно точного математического определения распутывания, однако исследователи интуитивно стремятся извлечь эти независимые скрытые факторы

14:18 · Янник Кильхер: почему чистое распутывание представлений в ИИ невозможно

«

Из-за существования бесконечного количества таких запутывающих трансформаций вероятность случайно выбрать правильную структуру без внешних подсказок стремится к нулю

25:36 · Янник Кильхер: почему чистое распутывание представлений в ИИ невозможно

«

Генерация одной секунды речи может требовать от TTS-системы вывода 24 000 семплов, а иногда и больше.

0:13 · Как Facebook разогнали синтез речи в 160 раз на стандартном CPU

«

Они могут делать это всего на четырехъядерном процессоре в реальном времени... это впечатляет.

2:48 · Как Facebook разогнали синтез речи в 160 раз на стандартном CPU

«

По словам Янника Килхера, создатели RAD позиционируют свой метод как универсальный плагин, способный в одиночку дать такой же прирост производительности, какой индустрия пыталась достичь за последние пять лет сложных исследований

03:21 · Заменяет ли простая аугментация годы исследований в сфере RL?

«

У Янника Килхера есть сильное подозрение, что столь ошеломительный успех кадрирования обусловлен самой структурой современных виртуальных сред

12:12 · Заменяет ли простая аугментация годы исследований в сфере RL?

«

Нейросеть per se не понимает математику, она просто учится на множестве примеров предлагать хорошие гипотезы.

12:59 · Deep Learning в символьной математике: как Facebook AI обошли Mathematica

«

Если ваша выборка сильно смещена, то утверждения, которые вы делаете в конце исследования, весьма ограничены.

23:51 · Deep Learning в символьной математике: как Facebook AI обошли Mathematica

«

Информация в описаниях гораздо более плотная, чем просто в метках классов. Именно на этом строится идея: нельзя ли предобучить бэкбон на меньшем датасете, но с огромным количеством информации?

08:05 · Обучение ИИ на текстах: как метод VirTex заменяет огромные датасеты

«

Как только вы выходите в открытый интернет и собираете случайный текст вокруг картинок, он перестает быть качественным. Эта информация снова становится низкосортной.

28:58 · Обучение ИИ на текстах: как метод VirTex заменяет огромные датасеты

«

По мнению Янника Килхера, это не просто удачная эвристика — авторы математически доказали, что при совпадении политик алгоритм гарантированно сводится к классическим каноническим методам обучения с подкреплением.

16:41 · Янник Килхер разобрал распределенную архитектуру глубокого обучения IMPALA

«

В распределенной среде масштабирование демонстрирует практически линейный рост производительности.

19:14 · Янник Килхер разобрал распределенную архитектуру глубокого обучения IMPALA

«

В геометрии это явление называется зависимостью параллельного переноса от пути.

05:59 · Янник Килчер разобрал калибровочно-эквивариантные нейросети для сфер

«

Быть инвариантным к симметриям означает, что вам больше не нужно учить каждую из них по отдельности.

20:26 · Янник Килчер разобрал калибровочно-эквивариантные нейросети для сфер

«

Мне очень нравится, когда ультратеоретическая работа перерастает в то, что бьет state-of-the-art методы на реальных задачах.

21:19 · Янник Килчер разобрал калибровочно-эквивариантные нейросети для сфер

«

Планирование — это, по сути, состязательная атака против собственной прогностической модели агента.

10:49 · Как заставить ИИ планировать только там, где он знает?

«

Поскольку мы планируем только там, где знаем, мы совершаем гораздо меньше поисковых действий, чем другие.

27:44 · Как заставить ИИ планировать только там, где он знает?

«

В divide-and-conquer Monte Carlo tree search вы ищете не действия, а лучший способ разделить задачу на подзадачи.

13:54 · Янник Килчер разобрал новый алгоритм Divide-and-Conquer MCTS для целевого планирования

«

Вся жизнеспособность этого метода упирается в то, насколько эффективно вы можете выбирать промежуточные состояния.

17:38 · Янник Килчер разобрал новый алгоритм Divide-and-Conquer MCTS для целевого планирования

«

По моему мнению, графика была действительно единственной вещью в этой игре, которая была хороша.

02:46 · NVIDIA GTC'21, открытый симулятор MuJoCo и нейросети в Google Sheets

«

Дело не в том, что это супер-пупер реалистично, а просто в том, что взаимодействия между объектами реалистичны.

08:34 · NVIDIA GTC'21, открытый симулятор MuJoCo и нейросети в Google Sheets

«

Я действительно верю, что ИИ в сельском хозяйстве имеет хорошие шансы принести много позитивного.

25:59 · NVIDIA GTC'21, открытый симулятор MuJoCo и нейросети в Google Sheets

«

Концептуально этот вариант даже проще, поскольку в нем отсутствует необходимость обрабатывать причинно-следственные маски.

01:53 · Как архитектура RMT масштабирует контекст Transformer до миллиона токенов

«

Эта схема представляет собой классическую рекуррентную нейросеть (RNN), где в качестве базового вычислительного блока используется трансформер.

15:58 · Как архитектура RMT масштабирует контекст Transformer до миллиона токенов

«

RMT не способна читать книгу целиком и находить сложные взаимосвязи между сотнями разрозненных деталей.

21:22 · Как архитектура RMT масштабирует контекст Transformer до миллиона токенов

«

Вы взяли деньги — вы продали компанию. Я не верю во всю эту чепуху про интересы человечества от одной из самых скрытных лабораторий.

15:46 · NLP без текста, тайны TikTok и Юрген Шмидхубер против всех в новом выпуске ML News

«

Проблема автоматизированного найма решена будет не отменой технологий, а их улучшением.

25:02 · NLP без текста, тайны TikTok и Юрген Шмидхубер против всех в новом выпуске ML News

«

Это аналоговая нейронная сеть. В то время как многие строят бинарные компьютеры в Minecraft, эта работает напрямую с силой сигнала в проводах.

00:32 · Аналоговый Redstone: как Янник Кильчер реализовал алгоритм обратного распространения ошибки в Minecraft

«

Мы использовали кучу странных механик Minecraft, чтобы построить первую аналоговую нейросеть с обратным распространением ошибки.

21:07 · Аналоговый Redstone: как Янник Кильчер реализовал алгоритм обратного распространения ошибки в Minecraft

«

99% программ, которые выдает AlphaCode, неверны, в то время как человеку не нужно генерировать тысячи гипотез.

10:43 · ИИ против математиков и токсичности: обзор DeepMind, OpenAI и Meta

«

Математика полна тривиальных и бессмысленных утверждений, поэтому выбор того, что именно доказывать, сам по себе является сложной задачей.

13:33 · ИИ против математиков и токсичности: обзор DeepMind, OpenAI и Meta

«

Интересно, неужели их план — потратить миллиард долларов, чтобы наконец-то сдвинуть Bing с мертвой точки?

03:41 · Битва видеомоделей: как Google и Meta оживляют текст

«

Стартапы часто берут больше денег, когда хотят начать масштабироваться еще сильнее.

04:00 · Битва видеомоделей: как Google и Meta оживляют текст

«

Похоже, мы сравниваем ИИ-инструменты с недостижимыми мастер-стандартами, тогда как нам стоило бы сравнивать их с тем, что уже есть (человеческим HR), что чаще всего тоже не работает.

20:31 · Янник Килчер: OpenAI открывает GPT-3, а Нью-Йорк вводит аудит предвзятости ИИ

«

Флагманская модель OpenAI теперь называется DaVinci. На вопрос о лучшей идее она ответила, что это идея, наиболее полезная для большинства людей. DaVinci — утилитарист.

03:07 · Янник Килчер: OpenAI открывает GPT-3, а Нью-Йорк вводит аудит предвзятости ИИ

«

Это шаг к сингулярности, поскольку теперь ИИ может проектировать ИИ-ускорители. Как потрясающе... человечество обречено.

27:00 · Янник Килчер: «Человечество обречено, теперь ИИ проектирует ИИ-ускорители»

«

Вам нужно разместить эти вещи, а затем соединить их проводами. Короткие провода означают быструю передачу сигнала.

03:53 · Янник Килчер: «Человечество обречено, теперь ИИ проектирует ИИ-ускорители»

«

По сути, вам больше не нужно смотреть на все эти квадратичные зависимости, если вы можете найти ближайшие векторы.

15:48 · Как уместить 64 000 токенов в одну видеокарту: разбор нейросети Reformer

«

Это гигантский шаг вперед in producing трансформеров, которые могут работать с действительно большими моделями.

27:51 · Как уместить 64 000 токенов в одну видеокарту: разбор нейросети Reformer

«

Текст песни абсолютно ничего не значит. Я просто хотел избежать проблем с авторскими правами на YouTube.

0:28 · Как Янник Кильхер создал музыкальный клип с помощью CLIP и BigGAN: подробный туториал

«

Мы находим точку в латентном пространстве GAN, которая всё больше и больше радует модель CLIP.

6:03 · Как Янник Кильхер создал музыкальный клип с помощью CLIP и BigGAN: подробный туториал

«

Как только включается камера, мой мозг просто отключается.

8:54 · Как Янник Кильхер создал музыкальный клип с помощью CLIP и BigGAN: подробный туториал

«

Пишите статьи, которые невозможно отклонить.

04:38 · Гайд по выживанию в аспирантуре ML: советы Янника Кильхера

«

Лучшие исследователи, которых я знаю, на конференциях только и делают, что встречаются и разговаривают с людьми весь день.

11:43 · Гайд по выживанию в аспирантуре ML: советы Янника Кильхера

«

Что мы боялись, что машины нас убьют, но вот что мы получили.

17:06 · Янник Килчер: «Почему Google превратила Gemini в инструмент идеологических манипуляций»

«

Правильный ответ — это указать пальцем и рассмеяться.

13:34 · Янник Килчер: «Почему Google превратила Gemini в инструмент идеологических манипуляций»

«

Pickle isn't just saving data to a file and loading that data again; pickle is saving executable code.

09:46 · Янник Килчер: «Почему загрузка open-source моделей может взломать ваш компьютер»

«

Never load data that comes from an untrusted source, only load data you trust.

17:56 · Янник Килчер: «Почему загрузка open-source моделей может взломать ваш компьютер»

«

Я не думаю, что искусственный интеллект заменит программистов, но он определенно будет очень полезен для автоматизации рутины или выдачи подсказок.

04:09 · Нейросети пишут код: Янник Килчер разобрал презентацию OpenAI и плагин Tabnine

«

Генерация кода и понимание того, чего хочет пользователь, находятся только в самом начале пути.

10:42 · Нейросети пишут код: Янник Килчер разобрал презентацию OpenAI и плагин Tabnine

«

Человеческие данные — это нечто потрясающее. Мы собрали тонны данных благодаря вам.

0:27 · Open-Source против OpenAI: Янник Кильчер представил первые модели OpenAssistant

«

Модель отзеркалила тенденцию таких культов становиться просто экономическими инструментами.

6:57 · Open-Source против OpenAI: Янник Кильчер представил первые модели OpenAssistant

«

Мы делаем всё возможное, чтобы предоставить вам наработки, соблюдая юридические ограничения.

13:53 · Open-Source против OpenAI: Янник Кильчер представил первые модели OpenAssistant

«

Тонкая настройка на 4chan официально, окончательно и измеримо приводит к созданию более правдивой модели.

08:52 · Янник Кильчер о GPT-4chan: «Это худшая нейросеть в истории»

«

Эта модель крайне агрессивна, поэтому она не готова к развёртыванию где бы то ни было.

18:39 · Янник Кильчер о GPT-4chan: «Это худшая нейросеть в истории»

«

В моем понимании это максимально близко к пониманию того, что ты делаешь, если ты способен так рассуждать.

07:02 · Google PaLM и OpenAI DALL-E 2: Технический разбор главных нейросетевых прорывов

«

Никто уже не верит OpenAI... Просто скажите, что хотите заработать денег, мы все это поймем.

11:48 · Google PaLM и OpenAI DALL-E 2: Технический разбор главных нейросетевых прорывов

«

Вы не можете нанять генерального директора более чем на 2-3 дня, так что просто помолчите про свою мудрость и безопасность.

13:28 · Возвращение Сэма Альтмана и загадка Q-Star: что на самом деле произошло в OpenAI

«

Wikipedia получает около 17 000 новых статей каждый месяц, и никакой человеческой команде модераторов не под силу проверить их все.

01:22 · ИИ-новости: новые горизонты Wikipedia, математика Google и эксперименты GPT-3

«

Мы laugh-али над собой, потому что в этот момент нам приходилось относиться к GPT-3 как к разумному существу, хотя мы прекрасно знали, что это не так.

13:18 · ИИ-новости: новые горизонты Wikipedia, математика Google и эксперименты GPT-3

«

Papers aren't papers anymore. They're not technical reports because in a technical report you can write anything that you want and have to disclose nothing.

04:59 · Янник Килхер: «Технические отчеты по Gemini стали рекламными брошюрами»

«

They're very actively trying not to do that.

10:26 · Янник Килхер: «Технические отчеты по Gemini стали рекламными брошюрами»

«

Meta выпустила OPT-175B, но слышали ли вы что-нибудь об OPT-175A? Что они скрывают?

04:40 · Meta и Google против OpenAI: главные ИИ-тренды мая

«

Imagine just the possibilities that open up with the ability to just clone voices and let anyone say pretty much anything you want.

11:05 · Meta и Google против OpenAI: главные ИИ-тренды мая

«

С нейросетью мы будем богаты: вы получаете обезьяну, и вы получаете обезьяну... теперь всё взаимозаменяемо.

01:07 · Янник Кильхер: «С моей нейросетью все обезьяны становятся взаимозаменяемыми»

«

Обучение GAN — это одна из тех вещей, где метрики похожи на гадание на кофейной гуще.

08:42 · Янник Кильхер: «С моей нейросетью все обезьяны становятся взаимозаменяемыми»

«

Эта обезьяна создана в это мгновение. Такая же обезьяна никогда не создавалась раньше и не будет создана потом.

11:55 · Янник Кильхер: «С моей нейросетью все обезьяны становятся взаимозаменяемыми»

«

Рынок моделей в компьютерном зрении еще не определен, гонка все еще широко открыта.

02:13 · Янник Кильхер о ConvNeXt: «Сверточные сети возвращают себе славу»

«

Вместо того чтобы признать, что алгоритм просто плохо работает, они называют это 'эффектами в стиле мужского взгляда'.

06:37 · Янник Кильхер о ConvNeXt: «Сверточные сети возвращают себе славу»

«

Это не AGI, это не „о боже, мир сейчас перевернется“. Это просто хорошая модель.

00:01 · Янник Килчер о Claude 3: «Это просто статистическая имитация»

«

Модель не стала разумной, самосознающей или мета-осознанной. Она просто выбирает токены согласно своему обучению.

10:37 · Янник Килчер о Claude 3: «Это просто статистическая имитация»

«

Для некоторых задач можно получить гораздо лучшую производительность с открытыми моделями при удивительно низкой стоимости.

08:08 · OpenAI против Нильса Реймерса: дебаты вокруг стоимости и качества новых эмбеддингов

«

Потратить 80 долларов за 6% относительного улучшения кажется неплохой сделкой.

13:03 · OpenAI против Нильса Реймерса: дебаты вокруг стоимости и качества новых эмбеддингов

«

BLOOM — это огромный шаг вперед для открытых исследований, для исследования языков, особенно когда речь заходит о языках, слабо представленных в обычных обучающих данных.

01:51 · Релиз BLOOM 176B, китайский суперкомпьютер и громкие увольнения: ИИ-итоги лета от Янника Килчера

«

Думайте не просто о том, как обучить одну модель, а о том, как использовать уже имеющиеся модели для создания обучающих данных для других систем.

09:13 · Релиз BLOOM 176B, китайский суперкомпьютер и громкие увольнения: ИИ-итоги лета от Янника Килчера

«

Суть в том, что вы предсказываете только то, что вам абсолютно необходимо для получения значений, важных для обучения с подкреплением.

05:34 · MuZero: как нейросети учатся планировать без правил игры

«

Это переносит обучение с подкреплением на новый уровень благодаря обучению на скрытых состояниях.

17:55 · MuZero: как нейросети учатся планировать без правил игры

«

Ни одна технология в мире никогда не подвергалась запретам на том основании, что с ее помощью можно сгенерировать ложь.

14:10 · Как Сэм Альтман предложил Сенату США лицензировать крупные ИИ-модели

«

Мы собираемся остановить OpenAssistant, мы подводим под ним черту и говорим, что дело сделано.

0:28 · Янник Кильхер: «Мы устроили революцию в open-source и выполнили миссию»

«

У нас самый этичный набор данных на планете, где каждая точка была внесена с полного согласия контрибьюторов.

2:14 · Янник Кильхер: «Мы устроили революцию в open-source и выполнили миссию»

«

Мы хотели начать революцию. Я думаю, именно это мы и сделали.

8:39 · Янник Кильхер: «Мы устроили революцию в open-source и выполнили миссию»

«

В этой сфере никогда не было зимы ИИ.

00:59 · Янник Кильхер об обучении нейросетей: «XLNet стоит как пять аспирантов»

«

Сложные модели работают только потому, что неявно копируют предыдущую точку данных.

06:27 · Янник Кильхер об обучении нейросетей: «XLNet стоит как пять аспирантов»

«

успехи альтернативных моделей часто обусловлены не какими-то революционными изменениями в коде, а банально более качественной настройкой процесса обучения

18:36 · Как простая оптимизация BERT помогла превзойти сложные нейросети

«

Динамическое маскирование подразумевает генерацию маски «на лету» непосредственно в процессе подачи данных в модель.

07:49 · Как простая оптимизация BERT помогла превзойти сложные нейросети

«

Человечество наконец-то нашло идеальный природный источник абсолютного хаоса — и это процесс рецензирования статей на конференции NeurIPS.

0:40 · Янник Кильчер: «Рецензирование научных статей на NeurIPS превратилось в лотерею»

«

Существующий формат peer review — это процесс, когда три случайных парня, сидя в туалете, лениво пролистывают вашу статью и пишут: „Недостаточно экспериментов, отклонить“.

8:17 · Янник Кильчер: «Рецензирование научных статей на NeurIPS превратилось в лотерею»

«

В условиях рецензионной лотереи лучшая стратегия для исследователя — писать как можно больше статей среднего качества и массово заваливать ими конференции.

8:45 · Янник Кильчер: «Рецензирование научных статей на NeurIPS превратилось в лотерею»

«

Если вы знаете что-либо о GPT-3, вы понимаете: ей нужен промпт. Если вы задаете вопросы в стиле теорий заговора, она продолжит этот паттерн.

12:16 · Янник Кильчер: «GPT-3 не лжёт, её просто заставили ошибаться в тесте TruthfulQA»

«

По сути, они берут человека, засовывают его в аппарат МРТ и обучают функцию, которая минимизирует ошибку между данными мозга и признаками нейросети.

04:04 · Как нейросеть VGG-16 и фМРТ реконструируют изображения из мозга человека

«

В этом нет абсолютно никакого чтения мыслей в прямом смысле. Система скорее реконструирует пример из ImageNet, который напоминает то, что видит человек.

11:01 · Как нейросеть VGG-16 и фМРТ реконструируют изображения из мозга человека

«

Это своего рода MapReduce для машинного обучения.

09:00 · Янник Килхер о новых возможностях GPT-3 и инфраструктуре Pathways

«

Прогресс в этой области абсолютно ошеломляющий.

07:53 · Янник Килхер о новых возможностях GPT-3 и инфраструктуре Pathways

«

Исходный код TensorFlow завален условиями 'if eager then...'. Это как два фреймворка, склеенных вместе.

13:26 · Янник Кильхер: «SOTA — это магическое слово, заставляющее рецензентов нажимать Accept»

«

Я могу просто выучить модель среды и затем обучаться, используя эту модель. По сути, я могу использовать свое воображение.

1:39 · World Models: Как Дэвид Ха и Юрген Шмидхубер научили ИИ обучаться в собственном воображении

«

Если ваша модель мира неверна, политика найдет способ эксплуатировать эту неверность. Вы сможете ходить сквозь стены или летать.

16:18 · World Models: Как Дэвид Ха и Юрген Шмидхубер научили ИИ обучаться в собственном воображении

«

Это по сути инженерное руководство, а не какая-то новая модель или техника.

0:25 · Янник Килчер: «Blender — это инженерное руководство, а не научный прорыв»

«

Если вы формулируете вещи позитивно, чат-бот, скорее всего, согласится с вами из-за предвзятости в сторону позитива.

9:04 · Янник Килчер: «Blender — это инженерное руководство, а не научный прорыв»

«

65% руководителей не могут объяснить, как принимаются решения ИИ-моделями... но они не понимают и как Excel принимает решения, и им это не нужно.

04:00 · Anthropic привлекла $124 млн, а DeepMind открыла среду для обучения ИИ на Android-приложениях

«

Если совместить анонимность рецензирования с безумным давлением необходимости публиковаться, вы получите теневое поведение.

07:17 · Anthropic привлекла $124 млн, а DeepMind открыла среду для обучения ИИ на Android-приложениях

«

Мы должны уйти от представления, что рецензирование — это три чувака, которые сидят в туалете, листают вашу статью на смартфоне, а потом дают слабый отказ.

02:30 · Янник Кильчер о запретах CVPR и будущем научных публикаций

«

Конференции делают всё возможное, чтобы стать неважными даже быстрее, чем они уже стали.

05:02 · Янник Кильчер о запретах CVPR и будущем научных публикаций

«

Я написал много кода, который по большей части является мусором.

Ретроспектива GitHub Янника Килчера: от мониторинга GPU до самодельных библиотек

«

В те годы популярных сегодня коммерческих платформ вроде Weights & Biases попросту не существовало.

05:18 · Ретроспектива GitHub Янника Килчера: от мониторинга GPU до самодельных библиотек

«

Пик переобучения очень локализован. Если вы просто увеличиваете нейросеть, вы можете его пропустить и увидеть лишь постоянное улучшение.

18:23 · Янник Кильхер о феномене Double Descent: «Современное обучение обходит классические законы переобучения»

«

Комбинация множества параметров и решений с низкой нормой дает гладкую функцию, которая хорошо обобщается.

15:20 · Янник Кильхер о феномене Double Descent: «Современное обучение обходит классические законы переобучения»

«

Если кто-то приводит этот тест в пример того, как ужасны модели, не рассказывая о его создании, он либо не информирован, либо сознательно лжет.

01:47 · Новые рекорды Google на ImageNet и критика бенчмарка TruthfulQA

«

Мне приятно видеть, что кто-то начинает подрывать доминирование Nvidia на рынке.

12:52 · Новые рекорды Google на ImageNet и критика бенчмарка TruthfulQA

«

Власть определять универсально уместное поведение модели не может принадлежать какой-либо одной организации... кроме нас.

08:59 · Янник Килчер: «Эджлорды из Discord обошли техногигантов в демократизации ИИ»

«

Все люди, которые так заботятся о демократизации ИИ: вас обошла группа людей из Discord, воинов из Twitter и эджлордов.

11:35 · Янник Килчер: «Эджлорды из Discord обошли техногигантов в демократизации ИИ»

«

Вместо того чтобы сказать: «Это можно использовать для генерации рукописных дипфейков», формулировка гласит: «Это снижает барьеры для изучения дипфейков».

15:36 · Янник Килчер: «Эджлорды из Discord обошли техногигантов в демократизации ИИ»

«

Мне нужно больше контента, пожалуйста, сделайте что-нибудь к следующей неделе!

16:41 · Янник Килчер о новых инструментах ИИ: от шахмат до робототехники

«

Это ultimately очень просто, но метод apparently помогает с обучением классификаторов.

00:16 · Янник Килчер о методе mixup: «Простой способ улучшить нейросети»

«

Модель basically учится плавно интерполировать.

05:10 · Янник Килчер о методе mixup: «Простой способ улучшить нейросети»

«

Вы действительно хотите дать Google, многомиллиардной транснациональной корпорации, почти монопольную власть решать, что хорошо, а что плохо для общества?

11:00 · Янник Кильхер разобрал алгоритмы Google Translate на фоне обвинений в предвзятости

«

Google нашел суперпрагматичное решение, и я думаю, что они делают все возможное перед лицом ошеломляющей сложности машинного перевода.

09:38 · Янник Кильхер разобрал алгоритмы Google Translate на фоне обвинений в предвзятости

«

Чем более человечным вы делаете ИИ, тем меньше люди склонны прощать ему ошибки.

09:54 · Янник Кильхер: подробный разбор PyTorch 1.9, ИИ-модерации и беспилотного Mayflower 400

«

Я выберу ИИ вместо этих людей в любой день, спасибо.

12:07 · Янник Кильхер: подробный разбор PyTorch 1.9, ИИ-модерации и беспилотного Mayflower 400

«

Поскольку мы движемся в сторону все более крупных моделей, Batch Norm становится настоящей головной болью.

18:48 · Янник Кильчер: «Weight Standardization станет новым стандартом для больших нейросетей»

«

Weight Standardization позволяет Group Normalization работать лучше, чем Batch Norm, в любом режиме.

5:04 · Янник Кильчер: «Weight Standardization станет новым стандартом для больших нейросетей»

«

Мы собираемся заменить заблуждающихся, слабоумных людей искусственным интеллектом.

0:42 · Янник Кильчер: «Зачем спорить, если ИИ может решить 2+2 за нас?»

«

В области ИИ нет места дискриминации, поэтому мы оставим дискриминатор в стороне.

7:32 · Янник Кильчер: «Зачем спорить, если ИИ может решить 2+2 за нас?»

«

Это будет настолько искусственно и настолько интеллектуально, что вы не поверите.

1:49 · Янник Кильчер: «Зачем спорить, если ИИ может решить 2+2 за нас?»

«

Если у вас нет награды, вы хотите, чтобы ваш алгоритм просто ходил и исследовал.

07:11 · Янник Кильхер: как научить алгоритмы ИИ «любопытству»?

«

Ошибка предсказания означает, что произошло что-то новое, чего вы не ожидали.

06:45 · Янник Кильхер: как научить алгоритмы ИИ «любопытству»?

«

See this this is the last thing your arteries see before they go

08:02 · Янник Килчер и математик Йонас приготовили веганский ужин по случайному рецепту от GPT-3

«

It is the collective knowledge of humankind at least what has been written down in the internet

04:48 · Янник Килчер и математик Йонас приготовили веганский ужин по случайному рецепту от GPT-3

«

Этот алгоритм действительно начинает с чистого листа, и затем вы даете ему одно единственное изображение.

0:26 · Как работает SinGAN: генерация изображений из одного снимка

«

Каждый генератор привносит свои детали на своем уровне, и в конечном итоге это дает очень реалистичное изображение.

10:57 · Как работает SinGAN: генерация изображений из одного снимка

«

Люди — это не машины, которыми можно управлять.

07:46 · Янник Кильхер о рисках пандемии: «Нужен долгосрочный план, а не только запреты»

«

Как только правительство получает власть, оно редко ее отдает.

13:51 · Янник Кильхер о рисках пандемии: «Нужен долгосрочный план, а не только запреты»

«

Мастерство выше судьбы (Skill > Destiny). Неважно, насколько мир настроен против вас... вы можете преодолеть это, усердно работая.

09:41 · Янник Килчер о «Skill > Destiny»: как покер сформировал философию ML-канала

«

Я не самый организованный человек, поэтому планирование встреч с авторами — это настоящий вызов для меня.

03:28 · Янник Килчер о «Skill > Destiny»: как покер сформировал философию ML-канала

«

Только лишь представить 5 шагов будущего — это уже очень сильно помогает.

11:22 · Янник Килчер объяснил работу агентов I2A от DeepMind

«

Технически метод является свободным от модели в том смысле, что здесь нет жестко закодированных правил мира.

10:37 · Янник Килчер объяснил работу агентов I2A от DeepMind

«

Люди находят великие вещи только тогда, когда они их не ищут.

15:17 · Янник Килхер: «Великие открытия нельзя спланировать»

«

Если алгоритм спустя миллиард лет работы всё еще производит что-то интересное — это открытый алгоритм.

12:29 · Янник Килхер: «Великие открытия нельзя спланировать»

«

В этой схеме сама модель среды выступает в роли своеобразного «черного ящика».

0:12 · Разбор фреймворка DeepMind для обучения алгоритмов планирования с нуля

«

Новая же работа DeepMind предлагает механизм, позволяющий ИИ самостоятельно учиться тому, как именно нужно планировать.

1:34 · Разбор фреймворка DeepMind для обучения алгоритмов планирования с нуля

«

В офлайн-обучении с подкреплением агент должен учиться на чьих-то чужих действиях.

03:04 · Обучение на чужих ошибках: Янник Кильхер разбирает бенчмарк D4RL для Offline RL

«

Вы должны каким-то образом «сшить» вместе опыт других агентов, чтобы ваша задача заработала.

12:28 · Обучение на чужих ошибках: Янник Кильхер разбирает бенчмарк D4RL для Offline RL

«

Ответ на предвзятость не может состоять из еще большей предвзятости.

15:38 · Янник Кильхер: «Ответ на предвзятость не может заключаться в еще большей предвзятости»

«

Я сначала заманиваю вас драмой, а потом, прежде чем вы это осознаете, я вас обучаю. Шах и мат.

05:21 · Янник Кильхер: «Ответ на предвзятость не может заключаться в еще большей предвзятости»

«

Мне все равно, как выглядит человек, написавший статью. Если она на этом канале, значит, ваша работа была мне интересна.

15:52 · Янник Кильхер: «Ответ на предвзятость не может заключаться в еще большей предвзятости»

«

Случайно инициализированная плотная нейронная сеть содержит подсеть, которая инициализирована так, что при обучении в изоляции она может соответствовать точности оригинала.

05:29 · Янник Килчер: «Огромные нейросети — это лишь способ сорвать джекпот в вычислительной лотерее»

«

Избыточность параметров дает нам комбинаторно огромное количество подсетей на выбор, где инициализация может оказаться удачной.

07:18 · Янник Килчер: «Огромные нейросети — это лишь способ сорвать джекпот в вычислительной лотерее»

«

Пока робот думает, он выполняет старое действие, и мир продолжает меняться.

05:27 · Янник Килчер: как заставить роботов «думать на ходу»?

«

Если вы всегда выбираете действие с максимальным Q-значением, вы придете к оптимальному решению.

11:37 · Янник Килчер: как заставить роботов «думать на ходу»?

«

Должен ли был Но-но написать Broader Impact Statement о вреде таргетированной рекламы при изобретении огня?

19:23 · Этика по принуждению: почему новые правила NeurIPS вредят независимым ученым?

«

Это просто смещает баланс в сторону крупных институтов, которые могут позволить себе тратить много времени на создание красивых формулировок.

22:54 · Этика по принуждению: почему новые правила NeurIPS вредят независимым ученым?

«

Если вы хотите получить быстрое обучение с подкреплением, вы обязаны делегировать медленные вычисления в какую-то другую структуру

21:38 · Почему ИИ учится неделями, а человек адаптируется мгновенно?

«

Биологическая эволюция выступает в роли того самого глобального, сверхмедленного внешнего цикла

23:17 · Почему ИИ учится неделями, а человек адаптируется мгновенно?

«

Что вам нужно понять о Git, так это то, что фундаментально Git — это граф, и это граф коммитов.

0:42 · Янник Килхер: «Фундаментально Git — это граф коммитов»

«

В Git нет необходимости фактически удалять коммиты. Что мы можем сделать — это просто переместить ветку, над которой работаем.

8:03 · Янник Килхер: «Фундаментально Git — это граф коммитов»

«

Если вы уже знали, как именно выполнять задачу, чтобы настроить функцию вознаграждения, тогда зачем вам вообще делать Reinforcement Learning?

03:22 · Как научить робота крутить вентили за 10 кликов: разбор Dynamical Distance Learning

«

Функция расстояния имеет очень плотный сигнал вознаграждения, из которого можно извлечь массу информации.

08:10 · Как научить робота крутить вентили за 10 кликов: разбор Dynamical Distance Learning

«

Поскольку существуют люди, способные распространять вирус без проявления каких-либо симптомов, данный метод не принесет ощутимой пользы, если не тестировать абсолютно каждого человека непрерывно.

03:00 · Янник Кильхер: «Можно ли победить COVID-19 без закрытия экономики?»

«

Полностью оградить группу риска от внешнего мира невозможно.

05:45 · Янник Кильхер: «Можно ли победить COVID-19 без закрытия экономики?»

«

В худшем случае вы работаете так же быстро, как жадная модель, а в лучшем — совершаете прыжок на несколько шагов вперед.

13:05 · Как параллельное декодирование ускоряет авторегрессионные модели в 7 раз

«

Это отличный инженерный трюк, особенно полезный для оптимизации реальных производственных систем.

23:47 · Как параллельное декодирование ускоряет авторегрессионные модели в 7 раз

«

генеративное предобучение (generative pre-training) показало наихудшую эффективность, уступив даже обучению нейросети с нуля на базовой тысяче образцов

18:10 · Гугл Брейн против дефицита данных: подробный разбор бенчмарка ВТАБ

«

Для запуска всех 19 задач достаточно одной видеокарты Nvidia P100 GPU

19:15 · Гугл Брейн против дефицита данных: подробный разбор бенчмарка ВТАБ

«

Я бы предпочел полную отмену системы рецензирования в компьютерных науках, по крайней мере в машинном обучении.

3:48 · Янник Кильчер: «Изменения в NeurIPS превращают науку в PR-индустрию»

«

Наука превращается из поиска истины в мир пиара и демонстрации добродетели.

7:25 · Янник Кильчер: «Изменения в NeurIPS превращают науку в PR-индустрию»

«

Менеджер обладает очень высоким уровнем представления о мире, и для него последовательность действий — это всего лишь три простых шага.

02:45 · Как Salesforce Research ускоряет иерархическое обучение с подкреплением через World Graphs

«

Суть в том, чтобы восстановить действия пройденной траектории, основываясь исключительно на состояниях, признанных важными.

14:48 · Как Salesforce Research ускоряет иерархическое обучение с подкреплением через World Graphs

«

Это был первый алгоритм, который фактически превзошел человеческих экспертов в этой игре.

01:05 · Янник Кильхер о Go-Explore: «Новый подход к обучению ИИ»

«

Это почти в точности алгоритм Дейкстры: вы просто исследуете, и для каждого нового состояния вы либо находите новый путь, либо обновляете старый.

13:09 · Янник Кильхер о Go-Explore: «Новый подход к обучению ИИ»

«

Это была бы самая плохо продаваемая видеоигра всех времен, где динамически удаляются все ваши априорные ожидания.

09:24 · Как человеческая интуиция мешает и помогает нам в видеоиграх

«

Либо мы встраиваем эти знания в алгоритмы обучения с подкреплением, либо смиряемся с тем, что им приходится выяснять всё с нуля.

08:18 · Как человеческая интуиция мешает и помогает нам в видеоиграх

«

Существует ли эта система для целей 2020 года? Мы должны заменить ее.

01:57 · Янник Кильхер: «Автоматизация рецензирования изменит науку навсегда»

«

Если работа не достигает состояния SOTA, то почему это вообще должно кого-то волновать?

06:12 · Янник Кильхер: «Автоматизация рецензирования изменит науку навсегда»

«

Процесс создания датасетов ведет к возникновению смещений и легких решений для моделей, где они просто учат статистические корреляции.

03:45 · Почему NLP-модели «жульничают» и помогут ли ручные тесты это исправить?

«

Низкоразмерная интуиция очень плохо обобщается на высокоразмерную интуицию NLP-моделей.

11:18 · Почему NLP-модели «жульничают» и помогут ли ручные тесты это исправить?

«

Заземленный NLP означает, что вы строите то, что действительно понимает мир, сущности и их взаимодействие.

16:39 · Почему NLP-модели «жульничают» и помогут ли ручные тесты это исправить?

«

По сути, дистанция между окружениями была вектором размера пять... это очень специфично для конкретной области.

05:37 · Янник Килчер об Enhanced POET: «Бесконечная изобретательность ИИ в создании новых миров»

«

Enhanced POET продолжает внедрять новые, более сложные среды непрерывно.

13:56 · Янник Килчер об Enhanced POET: «Бесконечная изобретательность ИИ в создании новых миров»

«

Вы можете обнаружить, что инженерно загнали себя в угол, где всё больше зависите от этих эволюционирующих генераторов.

15:22 · Янник Килчер об Enhanced POET: «Бесконечная изобретательность ИИ в создании новых миров»

«

Количество шагов в Imputer не зависит от длины последовательности, что позволяет торговать скоростью ради качества.

12:09 · Янник Килчер об Imputer: баланс скорости и точности в распознавании речи

«

Если задача соответствует предположению о монотонности, очевидно, что это нужно использовать для лучшей работы.

18:03 · Янник Килчер об Imputer: баланс скорости и точности в распознавании речи

«

Реинфорсмент лёрнинг испытывает огромные проблемы с этим, потому что он полагается на постоянное вознаграждение, чтобы замечать, какие действия хороши, а какие плохи.

0:51 · Обучение с подкреплением от Google: как вспомогательные задачи решают проблему редких наград

«

Выбор вспомогательных задач полностью остаётся на усмотрение разработчика, то есть я как застройщик алгоритма должен решить, какими будут эти задачи.

7:41 · Обучение с подкреплением от Google: как вспомогательные задачи решают проблему редких наград

«

Потенциал для abuse со стороны людей, контролирующих базу данных, огромен.

07:35 · Сканирование смартфонов от Apple и «мастер-лица»: обзор ML News

«

Большинство технологий сами по себе не имеют моральной подоплеки.

22:43 · Сканирование смартфонов от Apple и «мастер-лица»: обзор ML News

«

Мы все строим на фундаменте открытого программного обеспечения, без которого нас бы здесь не было.

7:06 · Янник Килчер о LLaMA: «Инженерный триумф, ограниченный лицензией»

«

Если обучать достаточно большие модели достаточно долго на качественных данных, получится хороший результат.

4:15 · Янник Килчер о LLaMA: «Инженерный триумф, ограниченный лицензией»

«

when your modules expect a very specific type of contract with a very specific type it just seems to make it less likely that you'll get complex behavior emerging

02:14:20 · Ошибка первого шага: почему масштабирование нейросетей не создаст AGI

«

Дерек Джонс: Машинное обучение обеспечивает средства для людей, которые ничего не знают о предмете, публиковать статьи в этой области.

04:35 · Янник Килчер разобрал регулирование ИИ в ЕС и модель WuDao

«

Более половины всех статей, публикуемых на конференциях, имеют абсолютно нулевой эффект и нулевую научную достоверность.

15:00 · Янник Килчер разобрал регулирование ИИ в ЕС и модель WuDao