Линус Ли из Notion об интерфейсах будущего, механистической интерпретируемости и ИИ как инструменте усиления человека

The Cognitive Revolution 1,9 тыс. 1 ч 47 мин 4 мин 15.04.2024
Главное

Линус Ли, руководитель направления ИИ-продуктов в Notion и независимый исследователь, представляет уникальный взгляд на взаимодействие человека и искусственного интеллекта. Вместо привычных чат-интерфейсов он проектирует системы, позволяющие манипулировать идеями напрямую в их семантическом пространстве. В этом материале мы разберем технический стек Линуса, его методы исследования нейросетей и философию создания продуктов, которые усиливают, а не заменяют человеческие возможности.

🎨 Интерфейсы в пространстве смыслов 6:04

Линус Ли утверждает, что традиционный способ взаимодействия с ИИ через текст («входное пространство») — лишь верхушка айсберга . Его работа сосредоточена на визуализации и управлении генеративными моделями в их «латентном пространстве». По мнению гостя, это позволяет редактировать контент не на уровне токенов или пикселей, а на уровне смысловых признаков (features) .

Среди ключевых экспериментальных интерфейсов Линуса:

Линус Ли подчеркивает, что такие инструменты пока являются исследовательскими прототипами. Они помогают нащупать «спектрограмму смыслов» — альтернативное представление идей, аналогичное тому, как звукорежиссеры работают с частотами вместо звуковых волн .

🧠 Анатомия трансформера: взгляд исследователя 37:08

Для понимания того, как манипулировать моделями, Линус Ли выработал концептуальную модель работы архитектуры Transformer. Он выделяет два критических уровня: процесс обработки информации внутри одного «прохода» (forward pass) и метод выборки (sampling) .

По словам Линуса Ли, трансформер можно представить как стек «мини-нейросетей», где за каждым токеном закреплена своя вычислительная цепочка :

  1. Главная артерия (Residual Stream): Основной поток информации, проходящий через все слои.
  2. Механизм внимания (Attention): Инструмент обмена данными между токенами. Каждый «мини-стек» сообщает, какую информацию он имеет и какую ищет .
  3. Слои MLP (Multilayer Perceptron): По мнению гостя, именно здесь происходит основное формирование смысловых ассоциаций и итеративное вычисление .

Линус Ли отмечает, что модели часто обладают более совершенным представлением идей, чем люди, поскольку они учитывают тысячи признаков, для которых у нас просто нет слов .

🛠 Технический инструментарий и воркфлоу 45:00

Линус Ли предпочитает путь «модельного аутопсии»: он запускает модели локально, расставляет print-инструкции и изучает численные значения тензоров .

Стек инструментов:

Линус Ли рекомендует разработчикам не бояться копировать код и избегать слишком тяжелых абстракций вроде библиотеки Hugging Face Transformers, если цель — понять внутреннюю логику конкретной модели . Он утверждает, что создание собственных легковесных инструментов окупается за счет скорости итераций .

🚀 Практические советы по разработке ИИ-приложений 1:28:47

Работая над Notion AI, Линус Ли выделил несколько ключевых принципов, которые помогают перебросить мост между исследовательским фронтиром и массовым продуктом.

Главные рекомендации для разработчиков:

  1. Работа с «сырыми» логами: По словам Линуса, нет замены ручному чтению сотен пар «вход-выход». В Notion инженеры регулярно проводят встречи, где просто изучают базу данных неудачных ответов, сообщенных пользователями .
  2. Анализ пре-тренинговых данных: Гость считает полезным заглядывать в наборы данных вроде The Pile, чтобы понять, почему модель склонна к определенным форматам ответов .
  3. Фокус на трех «К»: Для бизнеса важнее всего снижение галлюцинаций, стоимости (Cost) и задержек (Latency), а также четкое следование инструкциям .

Линус Ли отмечает, что General Reasoning (способность к рассуждению) — это святой грааль, но для продуктовой разработки часто важнее умение модели следовать 5000-токенному системному промпту без ошибок .

🔭 Будущее: Gemini 1.5, агенты и человеческая субъектность 1:22:08

Обсуждая новые возможности, такие как контекстное окно в 1 млн токенов у Gemini 1.5 от Google, Линус Ли выражает здоровый скептицизм. Он полагает, что длинный контекст полезен для мультимодальности (видео, аудио), но для текста классический RAG-пайплайн (retrieval-augmented generation) зачастую эффективнее, так как его проще отлаживать .

Философский конфликт (мнение Линуса Ли):

В будущем Линус Ли предсказывает появление «общения между моделями» напрямую через эмбеддинги, минуя текст , и постепенный переход от создания единичных цифровых артефактов к исследованию целых пространств возможных вариантов дизайна и идей .

💬 Цитаты

«Интерфейс, к которому я стремлюсь — это инструмент, позволяющий редактировать текст или идеи не в пространстве слов и символов, а в пространстве смыслов.»

«Трансформер — это стек мини-нейросетей, где за каждым токеном стоит свой вычислительный процесс.»

«Вы можете упаковать технологию так, чтобы она либо забирала субъектность, либо расширяла её.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Латентное пространство
Многомерное векторное пространство, в котором нейросеть представляет скрытые характеристики данных.
Механистическая интерпретируемость
Область исследований, пытающаяся понять конкретные алгоритмы и структуры внутри весов нейросети.
Residual Stream
Основной поток данных в архитектуре Transformer, к которому слои добавляют информацию.
RAG (Retrieval-Augmented Generation)
Метод, при котором модель сначала ищет информацию в базе данных, а затем использует её для генерации ответа.
📊 Цифры
🗓 Хронология
  1. 2022 Линус Ли начинает активно публиковать свои эксперименты с латентными пространствами в Twitter.
  2. 2023 Запуск Notion Q&A и функций ИИ-автозаполнения в таблицах.
  3. февраль 2024 Выход Gemini 1.5 с контекстом в 1 млн токенов (упоминается как недавнее событие).
⚖️ Другая сторона
Искусственный интеллект Notion PyTorch Llama 2 механистическая интерпретируемость латентное пространство