Использование искусственного интеллекта в образовании часто воспринимается как футуристическая концепция, однако для Duolingo это повседневная реальность уже более десяти лет. В подкасте TWIML AI Берр Сеттлс, директор по исследованиям в Duolingo, рассказал ведущему Сэму Чаррингтону, как компания превратилась из стартапа при Университете Карнеги — Меллона в глобальную платформу, где алгоритмы заменяют персональных репетиторов для 500 миллионов пользователей.
🎓 Философия «цифрового репетитора» 9:05
Берр Сеттлс пришел в компанию в 2013 году, когда в штате было всего 20 человек. С самого начала миссия Duolingo заключалась в демократизации образования. По мнению Сеттлса, лучший способ выучить что угодно — это индивидуальные занятия с экспертом . Однако живой репетитор — ресурс дорогой и дефицитный. AI призван масштабировать этот опыт, имитируя три ключевых качества хорошего учителя:
- Знание контента: понимание того, какой материал соответствует уровню компетенции ученика .
- Удержание внимания: умение вовлечь студента и поддерживать его мотивацию .
- «Чтение мыслей»: способность понять, что ученик уже усвоил, где он ошибается и как быстро забывает информацию .
Вся научно-исследовательская деятельность Duolingo структурирована вокруг этих трех направлений. Сеттлс подчеркивает, что в отличие от большинства образовательных технологий, сфокусированных на краткосрочных семестровых результатах, Duolingo строит модели для «обучения длиною в жизнь», где фактор забывания является критически важным .
📊 Масштабируемый контент и стандарт CEFR 17:23
Для оценки прогресса пользователей Duolingo использует общеевропейские компетенции владения иностранным языком (CEFR), которые делят уровни на A1 (начальный) до C2 (свободное владение) . Проблема заключалась в том, что ресурсы для разметки слов по этим уровням существовали только для английского языка.
Чтобы автоматизировать создание курсов для других языков, команда Сеттлса разработала инструмент Birdbrain (внутреннее название) и публичный сервис CEFR.duolingo.com . Основные технические детали:
- Мультиязычные эмбеддинги: используются векторы слов, обученные на данных Википедии и субтитрах к фильмам .
- Перенос обучения: модель обучается на английских данных и проецирует уровни сложности на испанский, французский или португальский языки .
- Контроль качества: алгоритмы проверяют, чтобы в уроке для новичков (A1) внезапно не появилось слово уровня C2 (например, «crepuscular» — сумеречный), заменяя его более простыми аналогами .
Сеттлс вспоминает, что на заре компании курсы могли содержать странные наборы слов просто потому, что их составляли инженеры-носители без педагогического опыта. Например, пользователю могли предложить выучить слово «панголин» на испанском в самом первом блоке обучения просто потому, что оно было в общем списке животных . Сейчас AI-инструменты фильтруют контент на соответствие реальной частотности употребления.
🧠 Активное обучение и «Взлом» забывания 32:09
Ключевой технологический прорыв Duolingo связан с концепцией интервальных повторений (spaced repetition). До 2013 года приложение использовало систему Лейтнера, разработанную еще в 1970-х для физических карточек . Сеттлс, чья докторская диссертация была посвящена активному обучению (active learning), пересмотрел этот подход.
В 2016 году команда опубликовала статью о методе Half-Life Regression (HLR) . Суть метода:
- Алгоритм математически моделирует скорость забывания (период полураспада) конкретного слова в мозгу конкретного пользователя .
- Если пользователь отвечает правильно, «срок жизни» слова в памяти увеличивается экспоненциально. Если ошибается — сокращается вдвое .
- Внедрение HLR привело к 12%-ному росту удержания (retention) пользователей уже в первые дни работы .
По словам гостя, активное обучение позволяет модели не просто предлагать задания, а выбирать те, что находятся в «зоне ближайшего развития» — на грани того, что человек уже знает и того, что его слегка путает .
🛡️ Борьба с читерством и английский тест 43:30
Важным источником дохода и применения ML стал Duolingo English Test (DET) — цифровая альтернатива TOEFL и IELTS. Традиционные тесты требуют личного присутствия в центрах, что дорого и неудобно: Сеттлс приводит пример жителя сельской Амазонии, которому нужно 14 часов ехать на автобусе до Сан-Паулу, чтобы сдать экзамен .
AI в DET решает две задачи:
- Безопасность данных: Благодаря автоматической генерации айтемов (заданий), их база настолько огромна, что вероятность увидеть один и тот же вопрос дважды составляет менее 0,1% . Это делает бессмысленным «слив» вопросов в сеть.
- Компьютерное адаптивное тестирование: Тест подстраивается под уровень сдающего в реальном времени. Если вы ответили правильно на вопрос уровня B1, следующий будет уровня B2 или C1 .
Для оценки устной речи (speaking) компания долго использовала сторонние сервисы (Google ASR, Siri), но недавно начала разработку собственных инхаус-решений для учета различных акцентов и вокальных регистров, чтобы избежать дискриминации пользователей по полу или происхождению .
🔔 Психология уведомлений: Бандитские алгоритмы 53:16
Одной из самых обсуждаемых (и иногда раздражающих) функций Duolingo являются пуш-уведомления. Сеттлс признается, что компания экспериментировала с использованием ML для определения идеального времени отправки сообщения, но выяснилось, что простые эвристики работают не хуже сложных моделей .
Однако содержание пушей выбирается с помощью многоруких бандитов (multi-armed bandits) . Проблемы, которые пришлось решить:
- Контекстуальность: Нельзя слать сообщение о «потере ударного режима» (streak), если у пользователя нулевой прогресс .
- Эффект новизны: Пользователь быстро привыкает к одной и той же фразе и перестает на нее реагировать. Чтобы избежать выгорания, в алгоритм был заложен «когнитивный штраф» за повторение контента .
Сейчас в арсенале Duolingo сотни вариантов сообщений на десятках языков, и AI постоянно тестирует, какой призыв к действию сработает лучше для конкретной культурной группы .