I see this as very much an empirical science... And a sad fact about models is we don't know how they work.
Я хочу, чтобы модели были красивыми... но я ожидаю, что они окажутся грязными и запутанными.
I generally think of this much more as a periodic table of universal circuits.
Модель «упаковывает» больше признаков, чем есть нейронов, допуская небольшие интерференции.
Residual stream рассматривается как центральный объект-память модели, а механизмы внимания — как инструменты для передачи информации между токенами.
Люди склонны доверять AI, даже если знают, что это AI.
Если вы пытаетесь войти в эту область сегодня и не используете LLM, вы совершаете ошибку.
Исследования — это очень открытое пространство. Вам нужно научиться действовать в условиях неопределенности.
Одна из самых важных вещей, которые я усвоил: вы можете просто взять и сделать что-то.