Линус Ли из Notion об интерфейсах будущего, механистической интерпретируемости и ИИ как инструменте усиления человека

Линус Ли, руководитель направления ИИ-продуктов в Notion и независимый исследователь, представляет уникальный взгляд на взаимодействие человека и искусственного интеллекта. Вместо привычных чат-интерфейсов он проектирует системы, позволяющие манипулировать идеями напрямую в их семантическом пространстве. В этом материале мы разберем технический стек Линуса, его методы исследования нейросетей и философию создания продуктов, которые усиливают, а не заменяют человеческие возможности.

🎨 Интерфейсы в пространстве смыслов 6:04

Линус Ли утверждает, что традиционный способ взаимодействия с ИИ через текст («входное пространство») — лишь верхушка айсберга . Его работа сосредоточена на визуализации и управлении генеративными моделями в их «латентном пространстве». По мнению гостя, это позволяет редактировать контент не на уровне токенов или пикселей, а на уровне смысловых признаков (features) .

Среди ключевых экспериментальных интерфейсов Линуса:

Семантическое смешивание изображений: Использование модели CLIP для объединения атрибутов разных картинок (например, освещения одной и композиции другой) путем сложения векторов в латентном пространстве .
Интерполяция текста: Модель, способная преобразовывать текст в эмбеддинг и обратно. Это позволяет плавно изменять тональность предложения (от мрачной к жизнерадостной), «двигаясь» между двумя смысловыми точками .
Бесконечный холст для идей: Двумерный срез многомерного пространства, где пользователь может перемещать текстовые блоки, тем самым меняя их смысл. Линус Ли сравнивает это с игрой на музыкальном инструменте: одна рука выбирает атрибут (например, «длина» или «научная фантастика»), а другая регулирует его интенсивность .

Линус Ли подчеркивает, что такие инструменты пока являются исследовательскими прототипами. Они помогают нащупать «спектрограмму смыслов» — альтернативное представление идей, аналогичное тому, как звукорежиссеры работают с частотами вместо звуковых волн .

🧠 Анатомия трансформера: взгляд исследователя 37:08

Для понимания того, как манипулировать моделями, Линус Ли выработал концептуальную модель работы архитектуры Transformer. Он выделяет два критических уровня: процесс обработки информации внутри одного «прохода» (forward pass) и метод выборки (sampling) .

По словам Линуса Ли, трансформер можно представить как стек «мини-нейросетей», где за каждым токеном закреплена своя вычислительная цепочка :

Главная артерия (Residual Stream): Основной поток информации, проходящий через все слои.
Механизм внимания (Attention): Инструмент обмена данными между токенами. Каждый «мини-стек» сообщает, какую информацию он имеет и какую ищет .
Слои MLP (Multilayer Perceptron): По мнению гостя, именно здесь происходит основное формирование смысловых ассоциаций и итеративное вычисление .

Линус Ли отмечает, что модели часто обладают более совершенным представлением идей, чем люди, поскольку они учитывают тысячи признаков, для которых у нас просто нет слов .

🛠 Технический инструментарий и воркфлоу 45:00

Линус Ли предпочитает путь «модельного аутопсии»: он запускает модели локально, расставляет print-инструкции и изучает численные значения тензоров .

Стек инструментов:

Основа: PyTorch. Линус Ли считает его доминирующим инструментом в среде исследователей (в отличие от Google, использующего Jax), так как он позволяет напрямую «трогать» векторы и матрицы .
Инфраструктура: Linux-серверы с GPU (локальные и облачные).
Визуализация: Собственные инструменты на React и JavaScript для создания фронтенд-интерфейсов к латентным пространствам .
Модели для экспериментов: GPT-2 (как «плодовая мушка» мира ИИ), Llama 2, Pythia (удобна для изучения обучения из-за множества чекпоинтов) и T5 для задач реконструкции текста .

Линус Ли рекомендует разработчикам не бояться копировать код и избегать слишком тяжелых абстракций вроде библиотеки Hugging Face Transformers, если цель — понять внутреннюю логику конкретной модели . Он утверждает, что создание собственных легковесных инструментов окупается за счет скорости итераций .

🚀 Практические советы по разработке ИИ-приложений 1:28:47

Работая над Notion AI, Линус Ли выделил несколько ключевых принципов, которые помогают перебросить мост между исследовательским фронтиром и массовым продуктом.

Главные рекомендации для разработчиков:

Работа с «сырыми» логами: По словам Линуса, нет замены ручному чтению сотен пар «вход-выход». В Notion инженеры регулярно проводят встречи, где просто изучают базу данных неудачных ответов, сообщенных пользователями .
Анализ пре-тренинговых данных: Гость считает полезным заглядывать в наборы данных вроде The Pile, чтобы понять, почему модель склонна к определенным форматам ответов .
Фокус на трех «К»: Для бизнеса важнее всего снижение галлюцинаций, стоимости (Cost) и задержек (Latency), а также четкое следование инструкциям .

Линус Ли отмечает, что General Reasoning (способность к рассуждению) — это святой грааль, но для продуктовой разработки часто важнее умение модели следовать 5000-токенному системному промпту без ошибок .

🔭 Будущее: Gemini 1.5, агенты и человеческая субъектность 1:22:08

Обсуждая новые возможности, такие как контекстное окно в 1 млн токенов у Gemini 1.5 от Google, Линус Ли выражает здоровый скептицизм. Он полагает, что длинный контекст полезен для мультимодальности (видео, аудио), но для текста классический RAG-пайплайн (retrieval-augmented generation) зачастую эффективнее, так как его проще отлаживать .

Философский конфликт (мнение Линуса Ли):

OpenAI: По мнению гостя, компания нацелена на «замену» человека, буквально определяя AGI как систему, способную выполнить работу целого сотрудника .
Гуманистический подход (Notion, Runway): Линус Ли считает, что ИИ должен быть «усилителем» субъектности (agency). Примером «отнимающей субъектность» технологии он называет посудомоечную машину (и это хорошо), но в творчестве и письме сохранение контроля человека критически важно .

В будущем Линус Ли предсказывает появление «общения между моделями» напрямую через эмбеддинги, минуя текст , и постепенный переход от создания единичных цифровых артефактов к исследованию целых пространств возможных вариантов дизайна и идей .