# Марк Хамфрис: «Для большинства людей GPT-4 — это уже суперинтеллект»

Источник: https://www.youtube.com/watch?v=IcIRbEXBjcQ
Канал: The Cognitive Revolution
Опубликовано: 31.10.2023

---

В новом выпуске подкаста **The Cognitive Revolution** Натан Лабенс беседует с **Марком Хамфрисом**, профессором истории в **Wilfred Laurier University**. На первый взгляд, академическая история — область, максимально далекая от передовых технологий, однако Марк Хамфрис на практике доказывает обратное. Используя тонкую настройку (fine-tuning) моделей GPT и методы «цепочки рассуждений» (Chain of Thought), он трансформирует работу с архивами, увеличивая продуктивность исследователя в тысячи раз.

## 🎓 Путь историка в мир больших моделей
[[JUMP:05:52]]

Марк Хамфрис не является типичным гуманитарием: его интерес к технологиям начался еще в 90-е годы с программирования на Visual Basic и увлечения матчем Каспарова против Deep Blue [06:34]. Свой путь в автоматизации истории он начал с программы Abbyy FineReader для распознавания старых немецких шрифтов времён Первой мировой войны [07:15].

Позже Хамфрис возглавил проект по оцифровке 12 миллионов страниц канадских архивных записей. До появления современных LLM (больших языковых моделей) этот массив данных был фактически «заперт» в формате JPEG, так как традиционные методы машинного обучения не справлялись с неразборчивым рукописным текстом и отсутствием стандартизации [07:41]. По словам профессора, появление ChatGPT стало переломным моментом: выяснилось, что нейросети не только могут обрабатывать эти данные, но и способны научить историка писать код для автоматизации собственных исследований [08:20].

## 📜 Оцифровка прошлого: от OCR к предсказательному тексту
[[JUMP:10:17]]

Долгое время «цифровая история» ограничивалась созданием облаков тегов и базовой визуализацией, что Хамфрис считает малополезным для серьезной науки [11:36]. Прорыв произошел с появлением специализированного ПО, такого как **Transkribus**, которое использует глубокое обучение для расшифровки рукописей.

Технологический стек Марка Хамфриса:

*   **Transkribus:** достигает 96–97% точности распознавания символов, но всё же допускает ошибки в 3 из 100 знаков [12:44].
*   **GPT-4:** используется для постобработки. Модель способна исправлять опечатку, понимая контекст предложения, и предсказывать правильные имена собственные [13:09]. 

Профессор отмечает, что в одном архиве Оттавы хранятся документы о Первой мировой войне, которые в разложенном виде потянулись бы на один километр [17:13]. Прочитать такой объем физически невозможно за всю жизнь. AI меняет саму парадигму: теперь историк может не выбирать селективно, что изучать, а обрабатывать весь массив данных целиком [18:32].

## 🤖 Построение «агента-историка»: технические сложности
[[JUMP:30:57]]

Хамфрис работает над созданием AI-агента для отслеживания судеб участников пушного промысла (fur trade) по тысячам страниц журналов XVIII века [38:44]. В процессе он столкнулся с рядом специфических проблем:

1.  **Архаичный язык:** Модели часто не понимают исторический сленг. Например, термин «моя девочка» (my girl) в документах того времени часто означал жену, а «мой мальчик» — сына. Стандартные эмбеддинги (векторные представления слов) не видят этой связи [35:38].
2.  **Галлюцинации и стиль:** При попытке создать гипотетические документы для поиска (метод HyDE), GPT-4 упорно пишет «цветистые» тексты о красоте природы, тогда как реальные дневники трапперов были сухими и обрывистыми: «Утром хорошая погода. Днем на человека упало дерево, он умер. Продали 5 бочонков рома» [37:53].
3.  **Терминология:** GPT-4 может галлюцинировать, не зная узких терминов. Пример Хамфриса — слово *varangue* (деревянные ребра каноэ из бересты). Модель признает незнание слова только после прямого уточнения [39:48].

### Тонкая настройка (Fine-tuning) как решение
Для решения этих задач Хамфрис применил методику, предложенную в подкасте Натаном Лабенсом: тонкую настройку GPT-3.5 на данных рассуждений GPT-4.

*   **Результат:** Точность классификации документов по ключевым словам выросла с 50–60% (базовая модель) до 85% (настроенная модель) [53:57].
*   Это превосходит результаты среднего студента-ассистента, точность работы которого колеблется в районе 78–80% [55:18].

## 🇨🇦 Бюрократические преграды и Claude в Канаде
[[JUMP:41:37]]

Одной из главных проблем Хамфрис называет «зазор» между скоростью развития технологий и законодательством. Многие архивные документы в Канаде защищены законами о приватности, которые запрещают передачу данных через интернет (даже если API OpenAI обещает их не хранить) [42:20].

Ведущий Натан Лабенс также отметил странную политику безопасности: на момент записи ролика модель **Claude** от **Anthropic** (считающаяся наиболее безопасной) была недоступна в Канаде [04:36]. Лабенс назвал это «автоголом» канадского правительства, которое в попытке защитить граждан лишает их доступа к передовым и безопасным инструментам. (В ходе интервью выяснилось, что доступ для Канады был открыт буквально на текущей неделе [49:00]).

## 🏫 ИИ в образовании: конец эссе на 500 слов?
[[JUMP:1:05:47]]

В течение двух семестров Хамфрис экспериментировал с использованием ИИ в учебном процессе. Его выводы:

*   Короткие ответы и эссе на 500–750 слов больше не могут быть мерилом знаний, так как ИИ справляется с ними идеально [1:12:33].
*   Университеты находятся в «режиме ожидания», часто игнорируя проблему вместо того, чтобы системно интегрировать инструменты [1:09:56].
*   **Главный тезис:** Базовый уровень работы ИИ (GPT-3.5) теперь является «минимумом». Чтобы быть востребованным на рынке труда, студент должен уметь использовать модель так, чтобы результат превосходил её стандартный выход [1:15:38].

Хамфрис разрешает студентам пользоваться GPT, но предупреждает: «Вы несете полную ответственность за контент. Если в тексте будут галлюцинации или выдуманные цитаты — работа не будет зачтена» [1:20:07].

## 🌍 Уроки истории: технологии и социальные потрясения
[[JUMP:1:27:35]]

Обсуждая будущее экономики знаний, Марк Хамфрис проводит параллели с прошлым:

1.  **Промышленная революция:** Она длилась три поколения, давая людям время адаптироваться. Текущая ИИ-революция сжата во времени, что пугает [1:23:10].
2.  **Движение огораживания:** В Англии людей сгоняли с земель, чтобы разводить овец (это было выгоднее). Это породило огромный класс обездоленных людей, вынужденных бежать в города [1:29:09].
3.  **Социальный контракт:** Хамфрис считает, что ИИ — это «суперинтеллект» для большинства людей, чьи навыки письма и анализа он уже превосходит [1:24:56]. По мнению профессора, исторический опыт показывает: если технология вытесняет людей, не предлагая ничего взамен, это ведет к социальной дестабилизации. Правительствам придется разрабатывать новые социальные программы, чтобы заполнить этот разрыв [1:30:13].