# Анхонг Го: «Нам нужно перейти от универсального дизайна к персональным ассистивным технологиям»

Источник: https://www.youtube.com/watch?v=-gxy0_z5oYA
Канал: Stanford Online
Опубликовано: 03.03.2025

---

Современный мир переполнен физическими и цифровыми интерфейсами — от терминалов самообслуживания до «умных» зубных щеток. Однако большинство этих устройств проектируются с жесткими «допущениями о способностях» пользователя, что делает их недоступными для миллионов людей. Профессор Мичиганского университета Анхонг Го в рамках семинара в Стэнфорде представил концепцию персональных ассистивных технологий, которые позволяют людям с инвалидностью не ждать милости от производителей, а самостоятельно адаптировать окружающую среду под свои нужды.

## 🧱 Проблема «фиксированного» мира и кризис стандартов
[[JUMP:00:51]]

Мир физических интерфейсов — микроволновок, киосков, термостатов — опирается на то то, что пользователь обладает определенным набором физических навыков [1:19]. По словам Анхонга Го, любой интерфейс требует от человека способности видеть экран, слышать звуковые сигналы, точно координировать движения рук и удерживать их в определенной точке в течение заданного времени [2:00]. Если одно из этих условий не выполняется, устройство становится бесполезным.

Традиционный подход к решению этой проблемы заключается в создании специализированных версий продуктов, таких как «говорящие» микроволновки или устройства с тактильной разметкой шрифтом Брайля [2:40]. Однако Анхонг Го считает эту парадигму тупиковой по нескольким причинам:

*   **Избыточность рекомендаций:** Существующие стандарты (WCAG, ATAG) содержат сотни требований, которые практически невозможно соблюсти каждому отдельному разработчику для каждого продукта [5:51].
*   **Ограниченность охвата:** Даже самые полные гайдлайны не могут учесть все возможные комбинации типов и степеней инвалидности [6:06].
*   **Физическая жесткость:** В отличие от цифровых интерфейсов, физические объекты (например, киоск в аэропорту или плита на кухне) уже установлены и имеют фиксированные параметры, которые нельзя изменить обновлением софта [6:32].
*   **Экономический барьер:** Добавление слоев доступности в каждое бытовое устройство увеличивает стоимость оборудования и требует значительных ресурсов на разработку ПО [7:28].

Анхонг Го проводит аналогию с мейнфреймами и персональными компьютерами. Если раньше многие пользователи зависели от одного централизованного устройства, то персональные вычисления дали людям возможность создавать и потреблять контент на своих условиях [9:24]. По мнению спикера, ассистивные технологии должны пройти тот же путь, переместившись ближе к пользователю и став глубоко индивидуальными.

## 📱 Инструменты для «оцифровки» реальности: от VizLens до BrushLens
[[JUMP:10:54]]

Для решения проблемы доступа к уже существующим (legacy) устройствам, которые не подключены к интернету и не имеют встроенных функций доступности, команда Анхонга Го разработала ряд систем, использующих компьютерное зрение.

Первым значимым проектом стал **VizLens**. Это приложение позволяет незрячему пользователю навести смартфон на интерфейс (например, панель управления микроволновки) и слышать аудио-описание того, что находится под его пальцем в реальном времени [11:52]. Это фактически переносит опыт экранного диктора (screen reader) из смартфона на любой физический объект.

Развитием этой идеи стали следующие расширения:

1.  **Facade:** Система для создания тактильных накладок. Пользователь фотографирует интерфейс вместе с эталонным объектом (например, кредитной картой), после чего система распознает кнопки и генерирует модель для 3D-печати накладки, которую можно приклеить на прибор [13:54].
2.  **BrushLens:** Аппаратное расширение для смартфонов в виде чехла с актуаторами. Оно решает проблему точности движений. Если незрячему пользователю или человеку с нарушениями моторики трудно попасть пальцем в маленькую кнопку на сенсорном киоске, BrushLens делает это за него [16:19]. Пользователь просто водит телефоном по экрану («красит» его), а система сама активирует механический палец в нужный момент [17:30].
3.  **Динамические интерфейсы:** Для сложных устройств (например, кофемашин с сенсорными экранами) система собирает данные о состояниях интерфейса из видео других пользователей и строит «карту состояний», проводя незрячего человека по меню шаг за шагом [14:45].

Анхонг Го отмечает, что эти технологии могут быть полезны и в других сферах: например, AR-инструкции для сложного медицинского оборудования или складские операции, где у работников заняты руки [46:18].

## 🛠 Программирование силами пользователей: проект ProgramAlly
[[JUMP:24:00]]

Одной из самых смелых идей доклада стала концепция конечного пользовательского программирования (End-User Programming) для людей с инвалидностью. По мнению профессора, существующие решения часто оказываются «усредненными» и не подходят для решения специфических, «длиннохвостых» задач [25:17].

В ходе качественных исследований Анхонг Го выяснил, что незрячие люди часто используют сложные обходные пути:

*   Переключаются между SeeingAI (Microsoft) и EnvisionAI в зависимости от языка текста [27:59].
*   Используют GPT-4 для описания сцены, но перепроверяют данные через Claude или живых помощников, чтобы избежать галлюцинаций ИИ [28:38].
*   Комбинируют Google Maps, BlindSquare и Oko для навигации [29:04].

Чтобы дать пользователям возможность создавать собственные инструменты, была разработана система **ProgramAlly**. Она позволяет создавать фильтры визуальной информации по принципу «найди [что-то] на [чем-то]» [33:39]. Например, пользователь может создать программу «найти срок годности на упаковке молока» или «найти мой номер автобуса».

Система предлагает три режима создания программ:

*   **Block Mode (Блочный режим):** Аналог iOS Shortcuts или IFTTT. Дает максимальный контроль и точность, но требует времени на навигацию по интерфейсу [36:08].
*   **Question Mode (Режим вопроса):** Пользователь просто произносит задачу голосом, а система генерирует код на основе языковых моделей [36:35].
*   **Explore Mode (Режим исследования):** Пользователь наводит камеру на объект, слышит все распознанные элементы (например, «73», «автобус», «реклама») и выбирает нужный элемент, чтобы система автоматически создала правило поиска для будущего [37:02].

## 👁 WorldScribe: Контекстная адаптация ИИ
[[JUMP:43:46]]

Еще один барьер современных ИИ-ассистентов — избыточность информации. Традиционные модели (вроде GPT-4o) выдают длинные описания, которые не учитывают, чем занят человек [44:16]. Проект **WorldScribe** направлен на создание адаптивных визуальных описаний.

Система учитывает:

1.  **Движение пользователя:** Если человек идет быстро, описания становятся краткими и фрагментарными. Если останавливается и фокусируется на объекте — детализация возрастает [43:46].
2.  **Акустический контекст:** Если вокруг становится шумно, громкость ассистента повышается. Если кто-то начинает говорить с пользователем, ассистент автоматически замолкает, чтобы не мешать беседе [45:12].

По мнению Анхонга Го, использование таких структурированных фильтров вместо простого чат-бота помогает снизить количество галлюцинаций ИИ: модель четко понимает, что число «73» относится именно к номеру автобуса, а не к случайному объекту в кадре [35:14].

## 🚀 Будущее и барьеры внедрения
[[JUMP:51:42]]

Отвечая на вопросы аудитории о будущем форм-факторов, Анхонг Го выразил надежду на развитие умных очков. В частности, он упомянул Meta Ray-Ban как многообещающую платформу, хотя и отметил отсутствие открытых API для полноценного стриминга видео [51:42]. На данный момент исследователи используют обходные пути через трансляции в Instagram или WhatsApp для обработки видеопотока [52:04].

Обсуждая вопрос о том, захотят ли пользователи вообще что-то настраивать (учитывая, что большинство людей никогда не меняют настройки в Microsoft Word), профессор высказал оптимистичный тезис. По его мнению, люди с инвалидностью являются «ранними последователями» (early adopters) ИИ, так как для них технология дает скачок возможностей не на 5–10%, а с нуля до 60–70% [59:07].

«Accessibility benefits everyone» (Доступность полезна для всех) — этот лозунг Анхонг Го считает ключевым. Разработка глубоко персонализированных инструментов для незрячих людей в итоге приводит к созданию более совершенных интерфейсов взаимодействия человека и компьютера, которыми со временем будет пользоваться все человечество [59:51].