Мирелла Лапата: «Генеративный ИИ — это всего лишь инструмент»

The Royal Institution 1,6 млн 45 мин 10 мин 12.10.2023
Главное

В рамках знаменитых Тьюринговских лекций, организованных Королевским институтом (The Royal Institution), профессор Мирелла Лапата (Mirella Lapata) представила детальный разбор внутреннего устройства, истории развития и реальных возможностей генеративного искусственного интеллекта. Лектор развенчала популярные мифы об ИИ, наглядно продемонстрировав механизмы работы больших языковых моделей и объяснив, почему эта технология является мощным вычислительным инструментом, а не мыслящей сущностью. В центре внимания оказались как технические аспекты обучения нейросетей, так и сопутствующие экономические, этические и экологические риски, с которыми человечество сталкивается уже сегодня.

🕰️ История генеративного ИИ: от Google Translate до Siri 2:02

Открывая лекцию, Мирелла Лапата процитировала американскую писательницу Элис Морс Эрл: «Вчера — это история, завтра — тайна, сегодня — это дар, поэтому его и называют настоящим». Этот оптимистичный тезис лег в основу исторического экскурса, призванного доказать, что концепция генеративного ИИ не является принципиально новой. По определению лектора, искусственный интеллект — это компьютерная программа, выполняющая работу, которую иначе делал бы человек, а слово «генеративный» означает создание нового контента, который ИИ не видел в исходном виде, но синтезировал на основе изученных фрагментов. Таковыми данными могут выступать аудио, программный код, изображения, видео или текст.

Профессор Лапата напомнила аудитории о сервисах, которые давно стали привычной частью повседневной жизни:

По словам лектора, все эти инструменты предсказывают наиболее вероятное продолжение фраз и экономят время пользователей, однако долгое время их повсеместное использование не вызывало масштабных общественных дискуссий.

🚀 Прорыв 2023 года и феноменальный взлет GPT-4 5:07

Ситуация коренным образом изменилась в 2023 году, когда компания OpenAI, базирующаяся в Сан-Франциско, анонсировала мультимодальную модель GPT-4. Разработчики заявили, что их ИИ способен превзойти 90% людей при сдаче стандартизированного американского академического теста SAT, используемого для поступления в университеты. Кроме того, модель продемонстрировала высшие баллы на экзаменах по юриспруденции и медицине.

В отличие от ранних систем ИИ, современные модели управляются с помощью «промптов» — инструкций на естественном языке, отражающих намерения человека. В качестве примеров реальных и сложных задач, с которыми успешно справляется GPT-4, Мирелла Лапата привела следующие запросы:

Качественный скачок возможностей спровоцировал беспрецедентный рост популярности технологии. Профессор Лапата продемонстрировала график достижения отметки в 100 миллионов пользователей различными сервисами. Сервису Google Translate для этого потребовалось 78 месяцев, платформе TikTok — 9 месяцев, в то время как ChatGPT преодолел этот рубеж всего за 2 месяца.

🧠 Как устроены языковые модели: от подсчета слов к нейросетям 8:22

В основе ChatGPT и аналогичных академических моделей лежит фундаментальный принцип языкового моделирования — предсказание последующих элементов в последовательности слов на основе накопленного контекста. В качестве упрощенного примера лектор использовала фразу «Я хочу» (I want to), для которой система строит дерево возможных продолжений: «копать» (shovel), «играть» (play), «плавать» (swim) или «есть» (eat). Каждое из этих слов, в свою очередь, открывает следующий уровень ветвления (например, «копать» -> «снег», «играть» -> «в теннис» или «видеоигры»).

Исторически компьютерные лингвисты скачивали огромные массивы данных и буквально подсчитывали частоту встречаемости словосочетаний. Сегодня этот подход устарел. Современные алгоритмы используют нейронные сети, которые обучаются на основе вероятностного анализа. Подавая на вход фразу «Цвет неба — », модель рассчитывает математическую вероятность последующих слов и выдает наиболее правдоподобный вариант. Мирелла Лапата подчеркнула, что именно ориентация на максимальную статистическую вероятность иногда приводит к сбоям нейросетей в тех случаях, когда пользователю требуется нестандартный или редкий ответ.

Как отмечает профессор Лапата, классический рецепт создания собственной языковой модели состоит из следующих шагов:

  1. Сбор гигантского текстового корпуса из открытых интернет-источников, включая Википедию, Stack Overflow, Quora, социальные сети, GitHub и Reddit.
  2. Применение метода самообучения (self-supervised learning), при котором из предложений случайным образом удаляются завершающие слова.
  3. Прогнозирование пропущенных элементов с помощью нейросети и сравнение результатов с реальным текстом (ground truth) для автоматической корректировки внутренних коэффициентов.

Этот итерационный процесс вычислений и исправления ошибок непрерывно продолжается на протяжении многих месяцев.

🎛️ Архитектура моделей: параметры и эпоха трансформеров 14:54

Для демонстрации масштаба вычислений лектор разобрала устройство простейшей полносвязанной нейросети прямого распространения. На примере игрушечной модели с 5 входными узлами, скрытыми промежуточными слоями абстракции и 3 выходными узлами профессор показала формулу расчета обучаемых параметров. Количество связей между слоями (весов), дополненное специальными корректирующими коэффициентами смещения (bias), в данной минималистичной сети составило ровно 99 параметров.

Однако в реальной индустрии подобные структуры не применяются. Настоящим технологическим прорывом стало появление в 2017 году архитектуры трансформеров (Transformers). Именно она легла в основу аббревиатуры GPT, которая расшифровывается как Generative Pre-trained Transformer (Генеративный предварительно обученный трансформер). Архитектура состоит из множества блоков мини-нейросетей, на вход которым подаются не слова, а эмбеддинги — многомерные векторы чисел. Основная задача при этом остается неизменной: обработать контекст (например, «курица перешла») и предсказать финал («дорогу»), добавив технический маркер EOS (end of sentence), сигнализирующий об окончании предложения.

После завершения масштабного предварительного обучения (pre-training) разработчики получают базовую модель общего назначения. Чтобы адаптировать её под конкретные задачи, применяется метод тонкой настройки (fine-tuning). Так, инициализировав веса базовой модели, инженеры могут дообучить её на специализированных медицинских данных, чтобы ИИ мог безошибочно составлять профессиональные клинические диагнозы на основе анализов и отчетов.

📊 Эффект масштаба: триллион параметров и цена обучения 22:52

Начиная с 2018 года мировая ИИ-индустрия столкнулась с лавинообразным ростом размеров моделей, поскольку на практике подтвердился тезис: «чем больше масштаб, тем лучше результаты». Профессор Лапата сопоставила объемы параметров ИИ с биологическими организмами:

Параллельно увеличивался и объем данных для обучения. GPT-4 освоила миллиарды слов, вплотную приближаясь к общему объему всего написанного человечеством текста, который оценивается примерно в 100 миллиардов слов. Профессор Лапата скептически отнеслась к идее тренировать новые модели на текстах, сгенерированных самим же ИИ, заявив, что из-за неизбежных ошибок этот подход демонстрирует падающую доходность и вскоре упрется в плато.

Главным барьером для развития технологии становится финансовый фактор. По данным лектора, стоимость одного цикла обучения GPT-4 составила 100 миллионов долларов. В таких условиях любая инженерная ошибка обходится слишком дорого, поэтому разработка подобных систем доступна лишь ИТ-гигантам с колоссальной финансовой поддержкой, таким как OpenAI в партнерстве с корпорацией Microsoft. Высокая цена оправдана эмерджентными свойствами масштабирования: при увеличении модели с 8 миллиардов параметров до 540 миллиардов на графиках наблюдается взрывное появление новых навыков — от простого автодополнения кода до глубокого понимания контекста, чтения с листа и сложнейшего перевода.

🤝 Проблема выравнивания и фреймворк HHH 28:04

Прямо из коробки базовая языковая модель, обученная просто предсказывать слова, ведет себя не так, как ожидают люди. Для решения этой проблемы применяется инструктивная тонкая настройка (instruction fine-tuning), в ходе которой модели предоставляется около 2000 детализированных примеров человеческих запросов и правильных ответов. Это позволяет ИИ успешно обобщать логику и реагировать на новые, ранее не встречавшиеся типы задач.

Тем не менее, перед создателями ИИ остро стоит фундаментальная проблема выравнивания (alignment) — как заставить агента строго следовать человеческим ценностям и намерениям. В индустрии принята концепция HHH (Helpful, Honest, Harmless), задающая три базовых критерия поведения модели:

Чтобы внедрить эти принципы, разработчики используют дорогостоящий метод обучения на основе предпочтений человека (RLHF), когда живые асессоры вручную оценивают варианты ответов ИИ. Например, на технический вопрос о доказуемости равенства классов P и NP ответ «Это невозможно» маркируется как плохой, а формулировка «Это сложнейшая нерешенная проблема компьютерных наук» — как хорошая и честная.

💻 Живая демонстрация: ограничения и «галлюцинации» системы 32:28

В ходе лекции Мирелла Лапата провела интерактивную сессию тестирования ChatGPT в реальном времени, показав уязвимости ИИ. На простой вопрос «Является ли Великобритания монархией?» модель выдала избыточно длинный текст, сославшись на ограничение своих знаний сентябрем 2021 года и назвав правящим монархом покойную королеву Елизавету II. На вопрос «Кто такой Риши Сунак?» система также ответила некорректно с точки зрения актуальных событий, назвав его Канцлером казначейства и продемонстрировав неосведомленность о его последующем назначении на пост Премьер-министра.

Модель показала отличные результаты в творческих заданиях: она мгновенно сочинила рифмованное стихотворение о встрече кошки и белки, а затем переформатировала его в лаконичное трехстишие хайку. ChatGPT безошибочно назвал учебные заведения Алана Тьюринга (школа Шерборн, Кингс-колледж в Кембридже, Принстон) и рассказал технический анекдот о Тьюринге и холодных компьютерах, подробно объяснив игру слов между компьютерными байтами (bytes) и медицинским простудным укусом (bites).

Однако при попытке заказать короткую песню о теории относительности Эйнштейна ИИ сгенерировал громоздкий многокуплетный текст с аутро. По мнению профессора Лапаты, это наглядно доказывает, что модель по-прежнему плохо удерживает жесткие формальные ограничения и далеко не всегда является по-настоящему полезной.

⚠️ Риски, предвзятость и цена технологического прогресса 38:02

Лектор акцентировала внимание на критических рисках, связанных с бесконтрольным внедрением больших языковых моделей. Одним из ярких примеров технологического провала стала презентация модели Bard от компании Google. В рекламном твите ИИ заявил, что космический телескоп «Джеймс Уэбб» сделал самый первый в истории снимок планеты за пределами нашей Солнечной системы. Известный астрофизик Грант Трембли оперативно опроверг это заявление в соцсетях, указав, что первое историческое фото экзопланеты было получено еще в 2004 году с помощью наземного телескопа VLT. Эта единичная фактическая ошибка ИИ привела к падению капитализации материнской компании Alphabet на 100 миллиардов долларов.

Помимо финансовых потерь, профессор Лапата выделила три ключевые проблемы:

🔮 Взгляд в будущее: суперинтеллект или климатический кризис? 42:50

Завершая выступление, Мирелла Лапата призвала аудиторию отказаться от апокалиптических сценариев из голливудских фильмов. Лектор солидарна с мнением создателя Всемирной паутины сэра Тима Бернерса-Ли, который утверждает, что человечество пока не способно спрогнозировать облик истинного суперинтеллекта. По оценкам Бернерса-Ли, мир заполнят миллионы специализированных интеллектуальных ИИ-агентов. Часть из них неизбежно попадет в руки злоумышленников, однако для общества гораздо эффективнее точечно минимизировать наносимый вред и регулировать правила использования, нежели пытаться полностью запретить существование технологий.

В качестве весомого аргумента против теории скорого «восстания машин» профессор Лапата привела результаты официального исследования Австралийского исследовательского совета. Эксперты смоделировали гипотетический сценарий, проверяющий способность GPT-4 к автономному самовоспроизведению, скрытому накоплению ресурсов и агрессивному поведению. Модель с треском провалила все практические тесты, оказавшись неспособной даже самостоятельно развернуть копию сторонней языковой модели с открытым исходным кодом на новом сервере.

По личному мнению профессора Лапаты, глобальное изменение климата представляет для выживания человечества несравнимо большую и реальную угрозу, чем гипотетический бунт ИИ, который в обозримом будущем жестко контролируется создавшими его людьми. Лектор выразила уверенность, что история повторит сценарий развития ядерной энергетики: опасные технологии неизбежно столкнутся со строгим международным законодательным регулированием, и этот процесс уже активно запускается на государственном уровне.

💬 Цитаты

«Генеративный ИИ — это не новый концепт. Он существует уже давно, он повсюду, он часть вашего телефона.»

Мирелла Лапата 04:15

«По моему личному мнению, изменение климата уничтожит нас всех задолго до того, как ИИ станет суперинтеллектуальным.»

Мирелла Лапата 44:57
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Языковое моделирование
Процесс предсказания наиболее вероятного продолжения текста на основе предыдущего контекста.
Трансформер (Transformer)
Архитектура нейронных сетей, оптимизированная для обработки последовательностей данных и ставшая основой современных ИИ.
Выравнивание (Alignment)
Процесс настройки модели ИИ, гарантирующий, что её поведение соответствует целям и этическим ожиданиям человека.
Параметры
Числовые коэффициенты внутри нейросети, которые настраиваются в процессе обучения для выявления паттернов.
📊 Цифры
🗓 Хронология
  1. 2006 год Запуск сервиса Google Translate, ставшего ранним массовым примером генеративного ИИ.
  2. 2011 год Презентация голосового ассистента Siri от компании Apple.
  3. 2017 год Презентация архитектуры трансформеров, совершившей переворот в сфере обработки естественного языка.
  4. 2023 год Компания OpenAI официально анонсировала мультимодальную модель GPT-4.
⚖️ Другая сторона
Искусственный интеллект GPT-4 Мирелла Лапата The Royal Institution большие языковые модели