Линус Ли, руководитель направления ИИ-продуктов в Notion и независимый исследователь, представляет уникальный взгляд на взаимодействие человека и искусственного интеллекта. Вместо привычных чат-интерфейсов он проектирует системы, позволяющие манипулировать идеями напрямую в их семантическом пространстве. В этом материале мы разберем технический стек Линуса, его методы исследования нейросетей и философию создания продуктов, которые усиливают, а не заменяют человеческие возможности.
🎨 Интерфейсы в пространстве смыслов 6:04
Линус Ли утверждает, что традиционный способ взаимодействия с ИИ через текст («входное пространство») — лишь верхушка айсберга . Его работа сосредоточена на визуализации и управлении генеративными моделями в их «латентном пространстве». По мнению гостя, это позволяет редактировать контент не на уровне токенов или пикселей, а на уровне смысловых признаков (features) .
Среди ключевых экспериментальных интерфейсов Линуса:
- Семантическое смешивание изображений: Использование модели CLIP для объединения атрибутов разных картинок (например, освещения одной и композиции другой) путем сложения векторов в латентном пространстве .
- Интерполяция текста: Модель, способная преобразовывать текст в эмбеддинг и обратно. Это позволяет плавно изменять тональность предложения (от мрачной к жизнерадостной), «двигаясь» между двумя смысловыми точками .
- Бесконечный холст для идей: Двумерный срез многомерного пространства, где пользователь может перемещать текстовые блоки, тем самым меняя их смысл. Линус Ли сравнивает это с игрой на музыкальном инструменте: одна рука выбирает атрибут (например, «длина» или «научная фантастика»), а другая регулирует его интенсивность .
Линус Ли подчеркивает, что такие инструменты пока являются исследовательскими прототипами. Они помогают нащупать «спектрограмму смыслов» — альтернативное представление идей, аналогичное тому, как звукорежиссеры работают с частотами вместо звуковых волн .
🧠 Анатомия трансформера: взгляд исследователя 37:08
Для понимания того, как манипулировать моделями, Линус Ли выработал концептуальную модель работы архитектуры Transformer. Он выделяет два критических уровня: процесс обработки информации внутри одного «прохода» (forward pass) и метод выборки (sampling) .
По словам Линуса Ли, трансформер можно представить как стек «мини-нейросетей», где за каждым токеном закреплена своя вычислительная цепочка :
- Главная артерия (Residual Stream): Основной поток информации, проходящий через все слои.
- Механизм внимания (Attention): Инструмент обмена данными между токенами. Каждый «мини-стек» сообщает, какую информацию он имеет и какую ищет .
- Слои MLP (Multilayer Perceptron): По мнению гостя, именно здесь происходит основное формирование смысловых ассоциаций и итеративное вычисление .
Линус Ли отмечает, что модели часто обладают более совершенным представлением идей, чем люди, поскольку они учитывают тысячи признаков, для которых у нас просто нет слов .
🛠 Технический инструментарий и воркфлоу 45:00
Линус Ли предпочитает путь «модельного аутопсии»: он запускает модели локально, расставляет print-инструкции и изучает численные значения тензоров .
Стек инструментов:
- Основа: PyTorch. Линус Ли считает его доминирующим инструментом в среде исследователей (в отличие от Google, использующего Jax), так как он позволяет напрямую «трогать» векторы и матрицы .
- Инфраструктура: Linux-серверы с GPU (локальные и облачные).
- Визуализация: Собственные инструменты на React и JavaScript для создания фронтенд-интерфейсов к латентным пространствам .
- Модели для экспериментов: GPT-2 (как «плодовая мушка» мира ИИ), Llama 2, Pythia (удобна для изучения обучения из-за множества чекпоинтов) и T5 для задач реконструкции текста .
Линус Ли рекомендует разработчикам не бояться копировать код и избегать слишком тяжелых абстракций вроде библиотеки Hugging Face Transformers, если цель — понять внутреннюю логику конкретной модели . Он утверждает, что создание собственных легковесных инструментов окупается за счет скорости итераций .
🚀 Практические советы по разработке ИИ-приложений 1:28:47
Работая над Notion AI, Линус Ли выделил несколько ключевых принципов, которые помогают перебросить мост между исследовательским фронтиром и массовым продуктом.
Главные рекомендации для разработчиков:
- Работа с «сырыми» логами: По словам Линуса, нет замены ручному чтению сотен пар «вход-выход». В Notion инженеры регулярно проводят встречи, где просто изучают базу данных неудачных ответов, сообщенных пользователями .
- Анализ пре-тренинговых данных: Гость считает полезным заглядывать в наборы данных вроде The Pile, чтобы понять, почему модель склонна к определенным форматам ответов .
- Фокус на трех «К»: Для бизнеса важнее всего снижение галлюцинаций, стоимости (Cost) и задержек (Latency), а также четкое следование инструкциям .
Линус Ли отмечает, что General Reasoning (способность к рассуждению) — это святой грааль, но для продуктовой разработки часто важнее умение модели следовать 5000-токенному системному промпту без ошибок .
🔭 Будущее: Gemini 1.5, агенты и человеческая субъектность 1:22:08
Обсуждая новые возможности, такие как контекстное окно в 1 млн токенов у Gemini 1.5 от Google, Линус Ли выражает здоровый скептицизм. Он полагает, что длинный контекст полезен для мультимодальности (видео, аудио), но для текста классический RAG-пайплайн (retrieval-augmented generation) зачастую эффективнее, так как его проще отлаживать .
Философский конфликт (мнение Линуса Ли):
- OpenAI: По мнению гостя, компания нацелена на «замену» человека, буквально определяя AGI как систему, способную выполнить работу целого сотрудника .
- Гуманистический подход (Notion, Runway): Линус Ли считает, что ИИ должен быть «усилителем» субъектности (agency). Примером «отнимающей субъектность» технологии он называет посудомоечную машину (и это хорошо), но в творчестве и письме сохранение контроля человека критически важно .
В будущем Линус Ли предсказывает появление «общения между моделями» напрямую через эмбеддинги, минуя текст , и постепенный переход от создания единичных цифровых артефактов к исследованию целых пространств возможных вариантов дизайна и идей .