Как инцидент с OpenAI превратился в GitHub Copilot: инсайды от Райана Сальвы

Райан Дж. Сальва, вице-президент по продукту в GitHub, в интервью Ленни Рачитски раскрывает внутреннюю кухню создания GitHub Copilot — от случайного инцидента с OpenAI до превращения в один из самых быстрорастущих ИИ-инструментов. В центре внимания — стратегия инкубации «лунных выстрелов» внутри корпорации Microsoft и трансформация роли разработчика в эпоху, когда значительную часть кода пишет машина.

🎨 От философии эстетики к управлению кодом 4:48

Райан Дж. Сальва обладает нетипичным для IT-лидера образованием: он изучал философию эстетики и критическую теорию XX века. По его мнению, программная разработка — это новый медиум для творчества, сравнимый с живописью или музыкой. До перехода в GitHub Сальва более 10 лет работал в Microsoft, где руководил разработкой внутренней инфраструктуры для Windows, Office и Azure.

Переход в GitHub после его поглощения Microsoft был обусловлен желанием Сальвы быть ближе к сообществу создателей. Он утверждает, что GitHub является эпицентром инноваций в инструментах для разработчиков. В компании он курировал не только Copilot, но и такие продукты, как:

GitHub Codespaces — облачные среды разработки.
GitHub Actions — инструменты для CI/CD.
Advanced Security — решения для безопасности кода.

❄️ Арктическое хранилище и «атака» OpenAI: как родился Copilot 17:52

История Copilot началась с курьезного случая. Команда инфраструктуры GitHub зафиксировала резкий всплеск запросов на клонирование публичных репозиториев, что изначально приняли за DDoS-атаку. Выяснилось, что это OpenAI собирали данные для обучения своих моделей. Вместо того чтобы блокировать доступ, GitHub предложил передать данные в структурированном виде.

Базой для обучения послужил слепок публичного кода, подготовленный для проекта Arctic Code Vault — хранилища в Финляндии, предназначенного для сохранения знаний человечества на тысячи лет. Эксперименты показали, что большие языковые модели (LLM) отлично справляются с кодом из-за его жесткой семантики и ограниченного словаря по сравнению с естественными языками.

Разработчики экспериментировали с разными интерфейсами:

Боковые панели с вариантами функций (оказались слишком отвлекающими).
Инлайновое автодополнение серым курсивом (стало стандартом Copilot).

🚀 Методология GitHub Next: три горизонта планирования 27:40

Продукт был инкубирован командой GitHub Next, которая занимается проектами второго и третьего горизонтов (Moonshots). В GitHub принята следующая классификация:

Горизонт 1 (текущий год): развитие существующих продуктов.
Горизонт 2 (до 3 лет): проекты с высокой неопределенностью.
Горизонт 3 (до 5 лет): радикальные инновации.

Сальва рекомендует выделять на такие исследования 5–10% ресурсов компании. Около 25–30% уходит на поддержку текущих операций, а оставшиеся 60% — на инкрементальные улучшения.

Ключевым фактором успеха Copilot стал механизм передачи знаний. Когда прототип показал потенциал, исследователей из GitHub Next на время перевели в специально созданную продуктовую команду (EPD squad) для промышленной эксплуатации. Сальва подчеркивает, что исследователи не должны покидать проект до тех пор, пока на их место не придут люди с соответствующими компетенциями, полностью освоившие домен.

⚡ Техническая магия и психология «потока» 11:14

Основная ценность Copilot, по словам Сальвы, заключается в удержании разработчика в «состоянии потока». Инструмент избавляет от необходимости переключаться на Stack Overflow или документацию для поиска синтаксиса.

Технические параметры эффективности:

Задержка (Latency): идеальное время отклика составляет около 200 миллисекунд.
Объем генерации: уже сейчас 40% кода на Python пишется с помощью ИИ. В других языках этот показатель варьируется от 20% до 30%.
Модель: в основе лежит модель Codex от OpenAI, производная от GPT-3.

⚖️ Этика и «Безумный напарник» 38:51

Одной из самых сложных задач стала настройка поведения ИИ. Райан Сальва использует метафору «парного программирования»: Copilot — это напарник, который шепчет вам на ухо. Проблема возникла, когда ИИ начал «шептать» неуместные вещи, включая политические лозунги или оскорбления.

Для решения этих проблем GitHub:

Внедрил черные списки слов (block lists), что оказалось сложным с редакционной точки зрения.
Начал использовать модели Azure Department of Responsible AI для контекстуального анализа этичности ответов.

Сальва настаивает: Copilot — это не замена человеку. Он утверждает, что GitHub сознательно не хочет, чтобы ИИ писал код без надзора «думающего и дышащего человека». Ответственность за безопасность и качество кода всегда остается на разработчике.

🛠️ Трудности масштабирования и GPU-голод 48:59

Масштабирование продукта столкнулось с глобальными вызовами. Сальва отмечает дефицит специализированных GPU, необходимых для работы моделей. GitHub вынужден агрессивно бороться за вычислительные мощности в дата-центрах по всему миру.

Также возникло сопротивление со стороны сообщества. Часть разработчиков скептически относится к обучению моделей на публичном коде. Сальва считает этот скептицизм здоровым и необходимым для индустрии, так как он заставляет компанию быть подотчетной в вопросах «отравления моделей» и новых векторов атак.

💡 Блиц: рекомендации и инструменты 57:03

В финале беседы Райан Сальва поделился личными предпочтениями и методами найма:

Вопрос на собеседовании: «Научи меня чему-то новому за одну минуту». Кандидат оценивается по полноте, сложности и ясности изложения. Одной из лучших была студентка, объяснившая связь искусства XVIII века с религиозными трендами.
Любимый фильм: «Прибытие» (Arrival) — о языке и памяти.
Книга: «Make It So» — об интерфейсах в научной фантастике.
Личность: Угада Оога (Ugada Ooga) — ведущий исследователь GitHub, которого Сальва называет истинным инноватором, стоящим за Copilot.