Современный мир переполнен физическими и цифровыми интерфейсами — от терминалов самообслуживания до «умных» зубных щеток. Однако большинство этих устройств проектируются с жесткими «допущениями о способностях» пользователя, что делает их недоступными для миллионов людей. Профессор Мичиганского университета Анхонг Го в рамках семинара в Стэнфорде представил концепцию персональных ассистивных технологий, которые позволяют людям с инвалидностью не ждать милости от производителей, а самостоятельно адаптировать окружающую среду под свои нужды.
🧱 Проблема «фиксированного» мира и кризис стандартов 0:51
Мир физических интерфейсов — микроволновок, киосков, термостатов — опирается на то то, что пользователь обладает определенным набором физических навыков . По словам Анхонга Го, любой интерфейс требует от человека способности видеть экран, слышать звуковые сигналы, точно координировать движения рук и удерживать их в определенной точке в течение заданного времени . Если одно из этих условий не выполняется, устройство становится бесполезным.
Традиционный подход к решению этой проблемы заключается в создании специализированных версий продуктов, таких как «говорящие» микроволновки или устройства с тактильной разметкой шрифтом Брайля . Однако Анхонг Го считает эту парадигму тупиковой по нескольким причинам:
- Избыточность рекомендаций: Существующие стандарты (WCAG, ATAG) содержат сотни требований, которые практически невозможно соблюсти каждому отдельному разработчику для каждого продукта .
- Ограниченность охвата: Даже самые полные гайдлайны не могут учесть все возможные комбинации типов и степеней инвалидности .
- Физическая жесткость: В отличие от цифровых интерфейсов, физические объекты (например, киоск в аэропорту или плита на кухне) уже установлены и имеют фиксированные параметры, которые нельзя изменить обновлением софта .
- Экономический барьер: Добавление слоев доступности в каждое бытовое устройство увеличивает стоимость оборудования и требует значительных ресурсов на разработку ПО .
Анхонг Го проводит аналогию с мейнфреймами и персональными компьютерами. Если раньше многие пользователи зависели от одного централизованного устройства, то персональные вычисления дали людям возможность создавать и потреблять контент на своих условиях . По мнению спикера, ассистивные технологии должны пройти тот же путь, переместившись ближе к пользователю и став глубоко индивидуальными.
📱 Инструменты для «оцифровки» реальности: от VizLens до BrushLens 10:54
Для решения проблемы доступа к уже существующим (legacy) устройствам, которые не подключены к интернету и не имеют встроенных функций доступности, команда Анхонга Го разработала ряд систем, использующих компьютерное зрение.
Первым значимым проектом стал VizLens. Это приложение позволяет незрячему пользователю навести смартфон на интерфейс (например, панель управления микроволновки) и слышать аудио-описание того, что находится под его пальцем в реальном времени . Это фактически переносит опыт экранного диктора (screen reader) из смартфона на любой физический объект.
Развитием этой идеи стали следующие расширения:
- Facade: Система для создания тактильных накладок. Пользователь фотографирует интерфейс вместе с эталонным объектом (например, кредитной картой), после чего система распознает кнопки и генерирует модель для 3D-печати накладки, которую можно приклеить на прибор .
- BrushLens: Аппаратное расширение для смартфонов в виде чехла с актуаторами. Оно решает проблему точности движений. Если незрячему пользователю или человеку с нарушениями моторики трудно попасть пальцем в маленькую кнопку на сенсорном киоске, BrushLens делает это за него . Пользователь просто водит телефоном по экрану («красит» его), а система сама активирует механический палец в нужный момент .
- Динамические интерфейсы: Для сложных устройств (например, кофемашин с сенсорными экранами) система собирает данные о состояниях интерфейса из видео других пользователей и строит «карту состояний», проводя незрячего человека по меню шаг за шагом .
Анхонг Го отмечает, что эти технологии могут быть полезны и в других сферах: например, AR-инструкции для сложного медицинского оборудования или складские операции, где у работников заняты руки .
🛠 Программирование силами пользователей: проект ProgramAlly 24:00
Одной из самых смелых идей доклада стала концепция конечного пользовательского программирования (End-User Programming) для людей с инвалидностью. По мнению профессора, существующие решения часто оказываются «усредненными» и не подходят для решения специфических, «длиннохвостых» задач .
В ходе качественных исследований Анхонг Го выяснил, что незрячие люди часто используют сложные обходные пути:
- Переключаются между SeeingAI (Microsoft) и EnvisionAI в зависимости от языка текста .
- Используют GPT-4 для описания сцены, но перепроверяют данные через Claude или живых помощников, чтобы избежать галлюцинаций ИИ .
- Комбинируют Google Maps, BlindSquare и Oko для навигации .
Чтобы дать пользователям возможность создавать собственные инструменты, была разработана система ProgramAlly. Она позволяет создавать фильтры визуальной информации по принципу «найди [что-то] на [чем-то]» . Например, пользователь может создать программу «найти срок годности на упаковке молока» или «найти мой номер автобуса».
Система предлагает три режима создания программ:
- Block Mode (Блочный режим): Аналог iOS Shortcuts или IFTTT. Дает максимальный контроль и точность, но требует времени на навигацию по интерфейсу .
- Question Mode (Режим вопроса): Пользователь просто произносит задачу голосом, а система генерирует код на основе языковых моделей .
- Explore Mode (Режим исследования): Пользователь наводит камеру на объект, слышит все распознанные элементы (например, «73», «автобус», «реклама») и выбирает нужный элемент, чтобы система автоматически создала правило поиска для будущего .
👁 WorldScribe: Контекстная адаптация ИИ 43:46
Еще один барьер современных ИИ-ассистентов — избыточность информации. Традиционные модели (вроде GPT-4o) выдают длинные описания, которые не учитывают, чем занят человек . Проект WorldScribe направлен на создание адаптивных визуальных описаний.
Система учитывает:
- Движение пользователя: Если человек идет быстро, описания становятся краткими и фрагментарными. Если останавливается и фокусируется на объекте — детализация возрастает .
- Акустический контекст: Если вокруг становится шумно, громкость ассистента повышается. Если кто-то начинает говорить с пользователем, ассистент автоматически замолкает, чтобы не мешать беседе .
По мнению Анхонга Го, использование таких структурированных фильтров вместо простого чат-бота помогает снизить количество галлюцинаций ИИ: модель четко понимает, что число «73» относится именно к номеру автобуса, а не к случайному объекту в кадре .
🚀 Будущее и барьеры внедрения 51:42
Отвечая на вопросы аудитории о будущем форм-факторов, Анхонг Го выразил надежду на развитие умных очков. В частности, он упомянул Meta Ray-Ban как многообещающую платформу, хотя и отметил отсутствие открытых API для полноценного стриминга видео . На данный момент исследователи используют обходные пути через трансляции в Instagram или WhatsApp для обработки видеопотока .
Обсуждая вопрос о том, захотят ли пользователи вообще что-то настраивать (учитывая, что большинство людей никогда не меняют настройки в Microsoft Word), профессор высказал оптимистичный тезис. По его мнению, люди с инвалидностью являются «ранними последователями» (early adopters) ИИ, так как для них технология дает скачок возможностей не на 5–10%, а с нуля до 60–70% .
«Accessibility benefits everyone» (Доступность полезна для всех) — этот лозунг Анхонг Го считает ключевым. Разработка глубоко персонализированных инструментов для незрячих людей в итоге приводит к созданию более совершенных интерфейсов взаимодействия человека и компьютера, которыми со временем будет пользоваться все человечество .