Генеративный ИИ в медицине: как работают большие языковые модели

Генеративный ИИ в здравоохранении: как работают большие языковые модели 0:11

В последние годы искусственный интеллект совершил стремительный переход от футуристической концепции к инструменту, трансформирующему систему здравоохранения. По мнению докторов и клинических информатиков из Стэнфорда, авторов обучающего курса, понимание фундаментальных принципов работы больших языковых моделей (LLM) является ключом к их эффективному и безопасному внедрению в клиническую практику. Несмотря на обилие технической литературы, врачам часто не хватает доступных образовательных ресурсов, что и побудило специалистов создать данный обзор, ориентированный на профессионалов медицины, а не на дата-сайентистов.

Три эпохи ИИ в здравоохранении 6:57

Согласно концепции «трех эпох ИИ в здравоохранении», предложенной Майклом Хауэллом и Карен Де Сальво (Google), развитие технологий можно разделить на три этапа, каждый из которых обладает уникальными характеристиками:

Эпоха 1 (с 1970-х): Символьный ИИ и вероятностные модели. Это «правилоориентированный» ИИ, работающий на логике «если — то». Примерами служат ассистент Clippy в Microsoft Word, налоговые калькуляторы и большинство систем поддержки принятия клинических решений, используемых в современных электронных медицинских картах (EHR). Эти модели не обучаются на новых данных и являются жестко закодированными.
Эпоха 2 (с 2010-х): Машинное обучение и глубокое обучение. Основано на поиске паттернов в огромных массивах данных. Сюда относятся системы распознавания лиц, беспилотные автомобили (Tesla, Waymo) и медицинские инструменты, такие как автоматическое обнаружение STEMI на ЭКГ или анализ радиологических изображений. Такие модели часто называют «черными ящиками», так как трудно отследить причинно-следственную связь между вводом и результатом.
Эпоха 3 (с 2017 г., публично с 2022 г.): Большие языковые модели (LLM). Модели общего назначения, способные генерировать новый контент и работать с неструктурированными данными. В медицине они применяются для суммаризации записей, составления ответов на сообщения и амбиентного диктования.

Анатомия LLM: как машины «думают» 17:43

В основе современных моделей лежит архитектура Transformer с механизмом self-attention (самовнимание), который позволяет модели динамически учитывать контекст всей фразы, а не просто предсказывать следующее слово.

Токенизация: Процесс разбиения ввода на фрагменты (токены), которые примерно соответствуют словам.
Эмбеддинги (статические и контекстуальные): Способ представления смысла слова в виде вектора чисел в многомерном пространстве. Статические эмбеддинги определяются при предобучении, а механизмы самовнимания превращают их в контекстуальные, учитывая окружение слова в предложении.
Температура: Параметр, регулирующий степень «креативности» или случайности ответов. При температуре 0 модель стремится выбирать наиболее вероятный токен, становясь детерминированной.

Важно понимать, что модель не планирует ответ заранее. Она «думает», создавая текст токен за токеном, поэтому для сложных задач эффективно использовать методы, побуждающие модель рассуждать пошагово (Chain of Thought).

Эволюция обучения моделей: от GPT-1 до наших дней 34:54

Развитие моделей OpenAI демонстрирует важность масштабирования:

GPT-1 (2018): 117 млн параметров, обучена на корпусе из 7000 книг. Показывала слабые результаты в прикладных задачах.
GPT-2 (2019): 1,5 млрд параметров, данные из ссылок на Reddit с 3+ апвоутами.
GPT-3 (2020): 175 млрд параметров, использование закона масштабирования (одновременное увеличение compute, данных и параметров).
GPT-3.5 (ChatGPT, 2022): Прорыв произошел не за счет масштаба, а благодаря методам пост-обучения: supervised fine-tuning (обучение на примерах от экспертов) и RLHF (обучение с подкреплением на основе отзывов людей).

Новая эра: масштабирование времени вычислений 49:33

По мнению экспертов, традиционное предобучение на интернете достигает своего предела из-за нехватки качественных данных. Новым трендом является test-time scaling (масштабирование вычислительных мощностей во время вывода): модель тратит больше ресурсов на «размышление» перед тем, как выдать ответ.

Это наглядно демонстрируют модели серии OpenAI o1, которые показывают выдающиеся результаты на тестах, требующих реального рассуждения, в отличие от простых бенчмарков, где модели могли полагаться на запоминание паттернов. Как отметил Сэм Альтман, будущее лежит в оптимизации рассуждений в процессе работы модели, а не только в увеличении размера предобученной модели.