# Линус Ли из Notion об интерфейсах будущего, механистической интерпретируемости и ИИ как инструменте усиления человека

Источник: https://www.youtube.com/watch?v=t8QJEGILYfA
Канал: The Cognitive Revolution
Опубликовано: 15.04.2024

---

Линус Ли, руководитель направления ИИ-продуктов в Notion и независимый исследователь, представляет уникальный взгляд на взаимодействие человека и искусственного интеллекта. Вместо привычных чат-интерфейсов он проектирует системы, позволяющие манипулировать идеями напрямую в их семантическом пространстве. В этом материале мы разберем технический стек Линуса, его методы исследования нейросетей и философию создания продуктов, которые усиливают, а не заменяют человеческие возможности.

## 🎨 Интерфейсы в пространстве смыслов
[[JUMP:06:04]]

Линус Ли утверждает, что традиционный способ взаимодействия с ИИ через текст («входное пространство») — лишь верхушка айсберга [06:42]. Его работа сосредоточена на визуализации и управлении генеративными моделями в их «латентном пространстве». По мнению гостя, это позволяет редактировать контент не на уровне токенов или пикселей, а на уровне смысловых признаков (features) [00:12].

Среди ключевых экспериментальных интерфейсов Линуса:

*   **Семантическое смешивание изображений:** Использование модели CLIP для объединения атрибутов разных картинок (например, освещения одной и композиции другой) путем сложения векторов в латентном пространстве [07:50].
*   **Интерполяция текста:** Модель, способная преобразовывать текст в эмбеддинг и обратно. Это позволяет плавно изменять тональность предложения (от мрачной к жизнерадостной), «двигаясь» между двумя смысловыми точками [08:39].
*   **Бесконечный холст для идей:** Двумерный срез многомерного пространства, где пользователь может перемещать текстовые блоки, тем самым меняя их смысл. Линус Ли сравнивает это с игрой на музыкальном инструменте: одна рука выбирает атрибут (например, «длина» или «научная фантастика»), а другая регулирует его интенсивность [11:15].

Линус Ли подчеркивает, что такие инструменты пока являются исследовательскими прототипами. Они помогают нащупать «спектрограмму смыслов» — альтернативное представление идей, аналогичное тому, как звукорежиссеры работают с частотами вместо звуковых волн [17:24].

## 🧠 Анатомия трансформера: взгляд исследователя
[[JUMP:37:08]]

Для понимания того, как манипулировать моделями, Линус Ли выработал концептуальную модель работы архитектуры Transformer. Он выделяет два критических уровня: процесс обработки информации внутри одного «прохода» (forward pass) и метод выборки (sampling) [38:01].

По словам Линуса Ли, трансформер можно представить как стек «мини-нейросетей», где за каждым токеном закреплена своя вычислительная цепочка [41:01]:

1.  **Главная артерия (Residual Stream):** Основной поток информации, проходящий через все слои.
2.  **Механизм внимания (Attention):** Инструмент обмена данными между токенами. Каждый «мини-стек» сообщает, какую информацию он имеет и какую ищет [41:58].
3.  **Слои MLP (Multilayer Perceptron):** По мнению гостя, именно здесь происходит основное формирование смысловых ассоциаций и итеративное вычисление [43:40].

Линус Ли отмечает, что модели часто обладают более совершенным представлением идей, чем люди, поскольку они учитывают тысячи признаков, для которых у нас просто нет слов [18:55].

## 🛠 Технический инструментарий и воркфлоу
[[JUMP:45:00]]

Линус Ли предпочитает путь «модельного аутопсии»: он запускает модели локально, расставляет `print`-инструкции и изучает численные значения тензоров [29:54].

### Стек инструментов:

*   **Основа:** PyTorch. Линус Ли считает его доминирующим инструментом в среде исследователей (в отличие от Google, использующего Jax), так как он позволяет напрямую «трогать» векторы и матрицы [46:15].
*   **Инфраструктура:** Linux-серверы с GPU (локальные и облачные).
*   **Визуализация:** Собственные инструменты на React и JavaScript для создания фронтенд-интерфейсов к латентным пространствам [51:09].
*   **Модели для экспериментов:** GPT-2 (как «плодовая мушка» мира ИИ), Llama 2, Pythia (удобна для изучения обучения из-за множества чекпоинтов) и T5 для задач реконструкции текста [53:45].

Линус Ли рекомендует разработчикам не бояться копировать код и избегать слишком тяжелых абстракций вроде библиотеки Hugging Face Transformers, если цель — понять внутреннюю логику конкретной модели [50:45]. Он утверждает, что создание собственных легковесных инструментов окупается за счет скорости итераций [51:09].

## 🚀 Практические советы по разработке ИИ-приложений
[[JUMP:1:28:47]]

Работая над Notion AI, Линус Ли выделил несколько ключевых принципов, которые помогают перебросить мост между исследовательским фронтиром и массовым продуктом.

**Главные рекомендации для разработчиков:**

1.  **Работа с «сырыми» логами:** По словам Линуса, нет замены ручному чтению сотен пар «вход-выход». В Notion инженеры регулярно проводят встречи, где просто изучают базу данных неудачных ответов, сообщенных пользователями [130:56].
2.  **Анализ пре-тренинговых данных:** Гость считает полезным заглядывать в наборы данных вроде *The Pile*, чтобы понять, почему модель склонна к определенным форматам ответов [1:30:15].
3.  **Фокус на трех «К»:** Для бизнеса важнее всего снижение галлюцинаций, стоимости (Cost) и задержек (Latency), а также четкое следование инструкциям [1:15:53].

Линус Ли отмечает, что General Reasoning (способность к рассуждению) — это святой грааль, но для продуктовой разработки часто важнее умение модели следовать 5000-токенному системному промпту без ошибок [1:17:11].

## 🔭 Будущее: Gemini 1.5, агенты и человеческая субъектность
[[JUMP:1:22:08]]

Обсуждая новые возможности, такие как контекстное окно в 1 млн токенов у Gemini 1.5 от Google, Линус Ли выражает здоровый скептицизм. Он полагает, что длинный контекст полезен для мультимодальности (видео, аудио), но для текста классический RAG-пайплайн (retrieval-augmented generation) зачастую эффективнее, так как его проще отлаживать [1:25:23].

**Философский конфликт (мнение Линуса Ли):**

*   **OpenAI:** По мнению гостя, компания нацелена на «замену» человека, буквально определяя AGI как систему, способную выполнить работу целого сотрудника [1:45:30].
*   **Гуманистический подход (Notion, Runway):** Линус Ли считает, что ИИ должен быть «усилителем» субъектности (agency). Примером «отнимающей субъектность» технологии он называет посудомоечную машину (и это хорошо), но в творчестве и письме сохранение контроля человека критически важно [1:43:53].

В будущем Линус Ли предсказывает появление «общения между моделями» напрямую через эмбеддинги, минуя текст [1:35:26], и постепенный переход от создания единичных цифровых артефактов к исследованию целых пространств возможных вариантов дизайна и идей [1:42:11].