Марк Хамфрис: «Для большинства людей GPT-4 — это уже суперинтеллект»

The Cognitive Revolution 803 1 ч 32 мин 4 мин 31.10.2023
Главное

В новом выпуске подкаста The Cognitive Revolution Натан Лабенс беседует с Марком Хамфрисом, профессором истории в Wilfred Laurier University. На первый взгляд, академическая история — область, максимально далекая от передовых технологий, однако Марк Хамфрис на практике доказывает обратное. Используя тонкую настройку (fine-tuning) моделей GPT и методы «цепочки рассуждений» (Chain of Thought), он трансформирует работу с архивами, увеличивая продуктивность исследователя в тысячи раз.

🎓 Путь историка в мир больших моделей 5:52

Марк Хамфрис не является типичным гуманитарием: его интерес к технологиям начался еще в 90-е годы с программирования на Visual Basic и увлечения матчем Каспарова против Deep Blue . Свой путь в автоматизации истории он начал с программы Abbyy FineReader для распознавания старых немецких шрифтов времён Первой мировой войны .

Позже Хамфрис возглавил проект по оцифровке 12 миллионов страниц канадских архивных записей. До появления современных LLM (больших языковых моделей) этот массив данных был фактически «заперт» в формате JPEG, так как традиционные методы машинного обучения не справлялись с неразборчивым рукописным текстом и отсутствием стандартизации . По словам профессора, появление ChatGPT стало переломным моментом: выяснилось, что нейросети не только могут обрабатывать эти данные, но и способны научить историка писать код для автоматизации собственных исследований .

📜 Оцифровка прошлого: от OCR к предсказательному тексту 10:17

Долгое время «цифровая история» ограничивалась созданием облаков тегов и базовой визуализацией, что Хамфрис считает малополезным для серьезной науки . Прорыв произошел с появлением специализированного ПО, такого как Transkribus, которое использует глубокое обучение для расшифровки рукописей.

Технологический стек Марка Хамфриса:

Профессор отмечает, что в одном архиве Оттавы хранятся документы о Первой мировой войне, которые в разложенном виде потянулись бы на один километр . Прочитать такой объем физически невозможно за всю жизнь. AI меняет саму парадигму: теперь историк может не выбирать селективно, что изучать, а обрабатывать весь массив данных целиком .

🤖 Построение «агента-историка»: технические сложности 30:57

Хамфрис работает над созданием AI-агента для отслеживания судеб участников пушного промысла (fur trade) по тысячам страниц журналов XVIII века . В процессе он столкнулся с рядом специфических проблем:

  1. Архаичный язык: Модели часто не понимают исторический сленг. Например, термин «моя девочка» (my girl) в документах того времени часто означал жену, а «мой мальчик» — сына. Стандартные эмбеддинги (векторные представления слов) не видят этой связи .
  2. Галлюцинации и стиль: При попытке создать гипотетические документы для поиска (метод HyDE), GPT-4 упорно пишет «цветистые» тексты о красоте природы, тогда как реальные дневники трапперов были сухими и обрывистыми: «Утром хорошая погода. Днем на человека упало дерево, он умер. Продали 5 бочонков рома» .
  3. Терминология: GPT-4 может галлюцинировать, не зная узких терминов. Пример Хамфриса — слово varangue (деревянные ребра каноэ из бересты). Модель признает незнание слова только после прямого уточнения .

Тонкая настройка (Fine-tuning) как решение

Для решения этих задач Хамфрис применил методику, предложенную в подкасте Натаном Лабенсом: тонкую настройку GPT-3.5 на данных рассуждений GPT-4.

🇨🇦 Бюрократические преграды и Claude в Канаде 41:37

Одной из главных проблем Хамфрис называет «зазор» между скоростью развития технологий и законодательством. Многие архивные документы в Канаде защищены законами о приватности, которые запрещают передачу данных через интернет (даже если API OpenAI обещает их не хранить) .

Ведущий Натан Лабенс также отметил странную политику безопасности: на момент записи ролика модель Claude от Anthropic (считающаяся наиболее безопасной) была недоступна в Канаде . Лабенс назвал это «автоголом» канадского правительства, которое в попытке защитить граждан лишает их доступа к передовым и безопасным инструментам. (В ходе интервью выяснилось, что доступ для Канады был открыт буквально на текущей неделе ).

🏫 ИИ в образовании: конец эссе на 500 слов? 1:05:47

В течение двух семестров Хамфрис экспериментировал с использованием ИИ в учебном процессе. Его выводы:

Хамфрис разрешает студентам пользоваться GPT, но предупреждает: «Вы несете полную ответственность за контент. Если в тексте будут галлюцинации или выдуманные цитаты — работа не будет зачтена» .

🌍 Уроки истории: технологии и социальные потрясения 1:27:35

Обсуждая будущее экономики знаний, Марк Хамфрис проводит параллели с прошлым:

  1. Промышленная революция: Она длилась три поколения, давая людям время адаптироваться. Текущая ИИ-революция сжата во времени, что пугает .
  2. Движение огораживания: В Англии людей сгоняли с земель, чтобы разводить овец (это было выгоднее). Это породило огромный класс обездоленных людей, вынужденных бежать в города .
  3. Социальный контракт: Хамфрис считает, что ИИ — это «суперинтеллект» для большинства людей, чьи навыки письма и анализа он уже превосходит . По мнению профессора, исторический опыт показывает: если технология вытесняет людей, не предлагая ничего взамен, это ведет к социальной дестабилизации. Правительствам придется разрабатывать новые социальные программы, чтобы заполнить этот разрыв .
💬 Цитаты

«Для подавляющего большинства людей это суперинтеллект; он просто не кажется суперинтеллектом вам, потому что вы очень умны.»

«То, что ИИ может сделать с заданием, вероятно, станет абсолютным минимумом на рынке труда.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Fine-tuning
Процесс дообучения предварительно обученной модели на специфическом наборе данных для выполнения конкретных задач.
OCR / HTR
Технологии оптического распознавания печатного (OCR) и рукописного (HTR) текста.
Chain of Thought
Техника промптинга, заставляющая модель рассуждать пошагово перед выдачей финального ответа.
📊 Цифры
🗓 Хронология
  1. 2007 Марк Хамфрис начинает использовать ранние методы машинного обучения для работы с немецкими архивами.
  2. 2018 Переговоры с правительством Канады об использовании данных ветеранов (до эпохи широкого распространения LLM).
  3. Август 2023 OpenAI выпускает API для тонкой настройки (fine-tuning) GPT-3.5 Turbo.
⚖️ Другая сторона
История и культура Марк Хамфрис Transkribus OpenAI GPT-4 Wilfred Laurier University