# Берр Сеттлс: «Мы используем ИИ, чтобы залезть пользователю в голову»

Источник: https://www.youtube.com/watch?v=Zmesytj5cdw
Канал: The TWIML AI Podcast
Опубликовано: 25.09.2020

---

Использование искусственного интеллекта в образовании часто воспринимается как футуристическая концепция, однако для Duolingo это повседневная реальность уже более десяти лет. В подкасте TWIML AI Берр Сеттлс, директор по исследованиям в Duolingo, рассказал ведущему Сэму Чаррингтону, как компания превратилась из стартапа при Университете Карнеги — Меллона в глобальную платформу, где алгоритмы заменяют персональных репетиторов для 500 миллионов пользователей.

## 🎓 Философия «цифрового репетитора»
[[JUMP:09:05]]

Берр Сеттлс пришел в компанию в 2013 году, когда в штате было всего 20 человек. С самого начала миссия Duolingo заключалась в демократизации образования. По мнению Сеттлса, лучший способ выучить что угодно — это индивидуальные занятия с экспертом [09:42]. Однако живой репетитор — ресурс дорогой и дефицитный. AI призван масштабировать этот опыт, имитируя три ключевых качества хорошего учителя:

*   **Знание контента:** понимание того, какой материал соответствует уровню компетенции ученика [10:23].
*   **Удержание внимания:** умение вовлечь студента и поддерживать его мотивацию [10:37].
*   **«Чтение мыслей»:** способность понять, что ученик уже усвоил, где он ошибается и как быстро забывает информацию [10:50].

Вся научно-исследовательская деятельность Duolingo структурирована вокруг этих трех направлений. Сеттлс подчеркивает, что в отличие от большинства образовательных технологий, сфокусированных на краткосрочных семестровых результатах, Duolingo строит модели для «обучения длиною в жизнь», где фактор забывания является критически важным [11:02].

## 📊 Масштабируемый контент и стандарт CEFR
[[JUMP:17:23]]

Для оценки прогресса пользователей Duolingo использует общеевропейские компетенции владения иностранным языком (CEFR), которые делят уровни на A1 (начальный) до C2 (свободное владение) [17:49]. Проблема заключалась в том, что ресурсы для разметки слов по этим уровням существовали только для английского языка.

Чтобы автоматизировать создание курсов для других языков, команда Сеттлса разработала инструмент **Birdbrain** (внутреннее название) и публичный сервис **CEFR.duolingo.com** [20:25]. Основные технические детали:

1.  **Мультиязычные эмбеддинги:** используются векторы слов, обученные на данных Википедии и субтитрах к фильмам [21:44].
2.  **Перенос обучения:** модель обучается на английских данных и проецирует уровни сложности на испанский, французский или португальский языки [20:12].
3.  **Контроль качества:** алгоритмы проверяют, чтобы в уроке для новичков (A1) внезапно не появилось слово уровня C2 (например, «crepuscular» — сумеречный), заменяя его более простыми аналогами [19:07].

Сеттлс вспоминает, что на заре компании курсы могли содержать странные наборы слов просто потому, что их составляли инженеры-носители без педагогического опыта. Например, пользователю могли предложить выучить слово «панголин» на испанском в самом первом блоке обучения просто потому, что оно было в общем списке животных [24:16]. Сейчас AI-инструменты фильтруют контент на соответствие реальной частотности употребления.

## 🧠 Активное обучение и «Взлом» забывания
[[JUMP:32:09]]

Ключевой технологический прорыв Duolingo связан с концепцией интервальных повторений (spaced repetition). До 2013 года приложение использовало систему Лейтнера, разработанную еще в 1970-х для физических карточек [35:14]. Сеттлс, чья докторская диссертация была посвящена активному обучению (active learning), пересмотрел этот подход.

В 2016 году команда опубликовала статью о методе **Half-Life Regression (HLR)** [34:48]. Суть метода:

*   Алгоритм математически моделирует скорость забывания (период полураспада) конкретного слова в мозгу конкретного пользователя [37:26].
*   Если пользователь отвечает правильно, «срок жизни» слова в памяти увеличивается экспоненциально. Если ошибается — сокращается вдвое [36:31].
*   Внедрение HLR привело к **12%-ному росту удержания (retention)** пользователей уже в первые дни работы [38:07].

По словам гостя, активное обучение позволяет модели не просто предлагать задания, а выбирать те, что находятся в «зоне ближайшего развития» — на грани того, что человек уже знает и того, что его слегка путает [33:13].

## 🛡️ Борьба с читерством и английский тест
[[JUMP:43:30]]

Важным источником дохода и применения ML стал **Duolingo English Test (DET)** — цифровая альтернатива TOEFL и IELTS. Традиционные тесты требуют личного присутствия в центрах, что дорого и неудобно: Сеттлс приводит пример жителя сельской Амазонии, которому нужно 14 часов ехать на автобусе до Сан-Паулу, чтобы сдать экзамен [48:09].

AI в DET решает две задачи:

1.  **Безопасность данных:** Благодаря автоматической генерации айтемов (заданий), их база настолько огромна, что вероятность увидеть один и тот же вопрос дважды составляет менее 0,1% [49:30]. Это делает бессмысленным «слив» вопросов в сеть.
2.  **Компьютерное адаптивное тестирование:** Тест подстраивается под уровень сдающего в реальном времени. Если вы ответили правильно на вопрос уровня B1, следующий будет уровня B2 или C1 [50:08].

Для оценки устной речи (speaking) компания долго использовала сторонние сервисы (Google ASR, Siri), но недавно начала разработку собственных инхаус-решений для учета различных акцентов и вокальных регистров, чтобы избежать дискриминации пользователей по полу или происхождению [46:53].

## 🔔 Психология уведомлений: Бандитские алгоритмы
[[JUMP:53:16]]

Одной из самых обсуждаемых (и иногда раздражающих) функций Duolingo являются пуш-уведомления. Сеттлс признается, что компания экспериментировала с использованием ML для определения идеального времени отправки сообщения, но выяснилось, что простые эвристики работают не хуже сложных моделей [54:20].

Однако содержание пушей выбирается с помощью **многоруких бандитов (multi-armed bandits)** [54:44]. Проблемы, которые пришлось решить:

*   **Контекстуальность:** Нельзя слать сообщение о «потере ударного режима» (streak), если у пользователя нулевой прогресс [55:12].
*   **Эффект новизны:** Пользователь быстро привыкает к одной и той же фразе и перестает на нее реагировать. Чтобы избежать выгорания, в алгоритм был заложен «когнитивный штраф» за повторение контента [56:56].

Сейчас в арсенале Duolingo сотни вариантов сообщений на десятках языков, и AI постоянно тестирует, какой призыв к действию сработает лучше для конкретной культурной группы [56:17].