ИИ-наушники от ученых и физическая клавиатура Klix для iPhone

The Vergecast 14,8 тыс. 1 ч 8 мин 26.03.2024
Главное

В свежем выпуске технологического подкаста The Vergecast ведущий Дэвид Пирс вместе с коллегами и приглашенными экспертами детально разбирает эволюцию пользовательских интерфейсов. В центре внимания оказались две противоположные, но одинаково интригующие тенденции: внедрение глубоких нейросетей в алгоритмы активного шумоподавления аудиоустройств и неожиданное возвращение физических кнопок на экраны современных смартфонов. Журналисты оценивают перспективы ИИ-наушников от академической лаборатории и тестируют новый клавиатурный чехол Klix для iPhone.

🎧 Эволюция шумоподавления: от глухого вакуума к «семантическому слуху» 2:21

Технология активного шумоподавления (ANC) прочно вошла в повседневную жизнь, однако ее текущие возможности — это лишь начало масштабной технологической трансформации. Обычные коммерческие решения эффективно справляются с предсказуемыми, монотонными звуками, такими как гул самолета или грохот поезда в метро. Принцип работы классического ANC заключается в улавливании внешнего шума и генерации его зеркальной копии (звуковой волны в противофазе), которая гасит нежелательные частоты. Однако, как отмечает Уилл Пур, максимальное отсечение всех внешних звуков — это не совсем то, что действительно нужно пользователям в реальном мире. Полный звуковой вакуум изолирует человека от окружения, лишая его важных контекстных сигналов.

По мнению экспертов, будущее аудиоиндустрии лежит в плоскости «умного» или адаптивного шумоподавления. Некоторые шаги в этом направлении уже делает корпорация Apple. В наушниках AirPods Pro реализована функция адаптивного аудио, которая автоматически приглушает громкость музыки, когда пользователь начинает говорить с кем-то, или делает слишком резкие уличные звуки более комфортными для восприятия. Тем не менее, данная система работает по закрытым алгоритмам, не предлагая пользователю инструментов точечной ручной настройки.

Проект Semantic Hearing: ИИ-фильтр звуковой реальности

Принципиально иной подход продемонстрировали исследователи из Лаборатории мобильного интеллекта (Mobile Intelligence Lab) факультета компьютерных наук Вашингтонского университета. Их проект, получивший название Semantic Hearing («Семантический слух»), позволяет пользователю самостоятельно выбирать, какие именно звуки окружающей среды он хочет слышать, а какие — полностью заблокировать.

Конструкция экспериментального прототипа состоит из следующих элементов:

Система работает непрерывно, записывая аудио короткими фрагментами длительностью по 8 миллисекунд. Эти аудиоданные передаются в глубокую нейросеть, обученную распознавать определенные классы целевых звуков. В текущей версии интерфейса мобильного приложения разработчики настроили распознавание пяти базовых категорий: мяуканье кошки, стрекот сверчка, лай собаки, стук в дверь и крик петуха. При активации конкретного тумблера, например, «кошка», нейросеть мгновенно изолирует и пропускает в уши пользователя исключительно кошачье мяуканье, полностью стирая фоновый гул работающего вплотную мощного пылесоса.

Технические барьеры и проблема транзиентных звуков

Разработчики сталкиваются с серьезным вызовом при работе с так называемыми транзиентными (внезапными, непостоянными) звуками. В отличие от монотонного авиационного двигателя, появление лая собаки или крика птицы невозможно предсказать заранее. Из-за этого обработка сигнала должна происходить с минимальной задержкой.

По словам Шьяма Голакоты, руководителя лаборатории, отправка аудиопотока для анализа в облачные сервисы или даже передача данных на процессор смартфона по протоколу Bluetooth занимает слишком много времени. Возникающий рассинхрон между тем, что человек видит глазами, и тем, что он слышит с задержкой в наушниках, делает систему непригодной для эксплуатации. Единственное решение — перенос всех ИИ-вычислений непосредственно на аппаратную платформу самих наушников. Для этого требуются энергоэффективные специализированные ИИ-чипы, способные выполнять колоссальные объемы математических вычислений при минимальном потреблении энергии. В планах команды инженеров на текущий год — оптимизировать программные модели и уменьшить размеры прототипа до габаритов стандартного слухового аппарата.

Безопасность ИИ-аудио и сценарии применения

Помимо развлекательной составляющей, «семантический слух» имеет важное значение для общественной безопасности и медицины. Одним из ключевых сценариев использования является фильтрация городских шумов для пешеходов: система должна гарантированно пропускать резкие автомобильные сигналы (гудки), чтобы предотвратить несчастные случаи на дороге. Другой важной сферой могут стать промышленные объекты с высоким уровнем шума, где рабочие вынуждены носить защитные беруши, но обязаны координировать действия друг с другом или слышать объявления по громкой связи.

Дэвид Пирс высказывает обоснованное опасение относительно надежности таких ИИ-систем, проводя параллели с ошибками автопилота Tesla или галлюцинациями ChatGPT. Доверить алгоритму принятие решений в высокорискованных ситуациях (например, услышит ли пешеход несущийся грузовик) — серьезный компромисс. Шьям Голакота соглашается с этой критикой и подчеркивает, что при масштабном развертывании технологии инженеры обязаны жестко прописывать неизменяемые правила безопасности, которые будут иметь безусловный приоритет над любыми пользовательскими настройками комфорта. В долгосрочной перспективе, как считает Голакота, контроль над акустическим загрязнением окружающей среды — это важный фактор поддержания здоровья, улучшения качества сна и увеличения продолжительности жизни людей.

⌨️ Возвращение кнопок: зачем iPhone физическая клавиатура Klix 28:12

История мобильной индустрии изменилась в 2007 году, когда Стив Джобс на презентации первого iPhone раскритиковал существовавшие тогда смарт-устройства (Motorola Q, BlackBerry, Palm Treo, Nokia E62) за наличие фиксированных пластиковых клавиатур. Логика Джобса заключалась в том, что каждому мобильному приложению требуется свой собственный, оптимизированный набор элементов управления, а хардверные кнопки занимают полезную площадь экрана вне зависимости от того, нужны они в данный момент пользователю или нет. История подтвердила правоту Apple, и индустрия практически полностью перешла на сенсорные дисплеи.

Тем не менее, у физических клавиатур остаются неоспоримые преимущества, о которых часто забывают: высокая скорость набора текста, возможность печатать вслепую и сохранение 100% полезной площади экрана, которая при вызове виртуальной клавиатуры сокращается почти на сорок процентов. Попытки вернуть кнопки предпринимались неоднократно — можно вспомнить проект клавиатурного чехла Typo, который в свое время продвигал телеведущий Райан Сикрест, однако те инициативы не увенчались коммерческим успехом. В 2024 году на этот рынок выходит новый амбициозный игрок — стартап Klix, одним из сооснователей которого стал известный техноблогер Майкл Фишер (Mr. Mobile).

От идеи до CES: история разработки Klix

Идея создания Klix принадлежит Кевину Михалюку (известному как Crackberry Kevin), который в апреле 2023 года показал Майклу Фишеру первые 3D-рендеры будущего аксессуара. К разработке удалось привлечь команду инженеров-ветеранов из компании FX Tec, специализировавшейся на создании Android-смартфонов с выдвижными клавиатурами. Темпы проектирования оказались беспрецедентными: уже в январе на международной выставке CES команда продемонстрировала полностью работоспособный коммерческий продукт.

В процессе проектирования инженеры создали и протестировали более ста различных ревизий клавиатурного блока. Майкл Фишер рассказывает, что изначально они планировали использовать круглые выпуклые прозрачные клавиши в стилистике культового смартфона Palm Pre. Однако первые тесты выявили серьезный недостаток: при наклоне корпуса смартфона всего на 20 градусов подложка с символами начинала оптически искажаться, из-за чего пользователю было трудно отличить точку от запятой. В итоге разработчики перешли на плоские клавиши из поликарбоната с сатиновым напылением.

Другим предметом ожесточенных дискуссий внутри команды стало размещение цифрового блока кнопок. Будучи фанатом BlackBerry, Фишер настаивал на классической квадратной раскладке, но более опытные проектировщики убедили его разместить цифры в одну горизонтальную линию сверху — точно так же, как это реализовано на стандартной виртуальной клавиатуре iOS. Чтобы улучшить эргономику устройства, заднюю панель чехла дополнили накладкой из тисненой экокожи, помогающей надежно удерживать увеличившийся в длину смартфон остальными пальцами во время интенсивного набора текста.

Глубокая интеграция с экосистемой Apple iOS

Одним из главных преимуществ Klix является отсутствие необходимости устанавливать какое-либо стороннее программное обеспечение или специализированные приложения. Чехол подключается напрямую к смартфонам через порт Lightning или USB-C, после чего операционная система iOS мгновенно распознает внешнее устройство ввода благодаря встроенным системным протоколам Apple.

Использование физических кнопок открывает доступ к обширной библиотеке системных горячих клавиш, аналогичных тем, что применяются на iPad с клавиатурой Magic Keyboard:

Майкл Фишер подчеркивает, что аксессуар ориентирован на людей, работающих с большими объемами текстовой информации. В групповых чатах или во время ведения прямых трансляций в Instagram Live чехол Klix позволяет видеть весь контекст беседы, не перекрывая половину экрана виртуальными кнопками. При этом на чехле предусмотрена специальная кнопка быстрого вызова экранной клавиатуры на случай, если пользователю необходимо отправить эмодзи или набрать текст одной рукой на ходу. Стартовая партия Founders Edition уже разошлась тиражом в несколько тысяч единиц. В планах компании — развитие линейки цветовых решений и последующий выпуск версии чехла для Android-смартфонов.

🎙️ Как записать историю семьи: выбираем микрофон для домашнего архива 51:13

В финальной части программы ведущие ответили на вопрос слушателя Майкла из Мэдисона, который ищет качественное оборудование для аудиозаписи воспоминаний своих пожилых родителей в стиле документальных фильмов режиссера Кена Бернса. Продюсер и звукорежиссер Эндрю Марино предложил три оптимальных технических решения в разных ценовых категориях.

Вариант 1: Беспроводная радиосистема Rode Wireless Me

Данный комплект оценивается в диапазоне от 200 до 300 долларов в зависимости от комплектации. Он представляет собой компактные квадратные блоки-передатчики со встроенными микрофонами, которые крепятся на лацкан одежды спикера, и приемник, подключаемый напрямую к смартфону, планшету или камере. Устройства сопрягаются автоматически. Марино считает этот вариант идеальным для ситуаций, когда пожилые люди не сидят на одном месте, а перемещаются по дому — например, готовят ужин на кухне. Петличный микрофон всегда находится на фиксированном расстоянии от рта, обеспечивая стабильный уровень сигнала.

Вариант 2: Универсальный микрофон Audio-Technica ATR2100X-USB

Этот динамический микрофон Эндрю Марино называет лучшим выбором по соотношению цены и качества, отмечая, что на площадке B&H его стоимость на момент записи упала со стандартных 100 долларов до рекордных 49 долларов. Главная особенность модели — наличие сразу двух интерфейсов подключения: USB (для прямой записи на ноутбук или телефон) и XLR (для работы с профессиональными аудиоинтерфейсами и рекордерами).

Микрофон поставляется в комплекте с настольной подставкой. Дэвид Пирс заявляет, что всегда рекомендует именно этот прибор всем начинающим подкастерам, поскольку он обеспечивает до 90% качества от уровня профессиональных студийных моделей. Для записи интервью с двумя родителями Марино советует приобрести сразу два таких микрофона, чтобы организовать полноценную раздельную запись каждого собеседника.

Вариант 3: Профессиональный узконаправленный микрофон Sennheiser MKE 600

Для получения бескомпромиссного, максимально детализированного звука эксперты рекомендуют использовать конденсаторный микрофон-пушку Sennheiser MKE 600 стоимостью около 350 долларов. Он обладает выраженной кристальной четкостью передачи вокала. Такой микрофон обычно размещается на специализированной стойке-пантографе или бум-шесте прямо над головой говорящего.

Однако у профессионального оборудования есть своя специфика. Эндрю Марино продемонстрировал в эфире, что Sennheiser MKE 600 имеет строгие требования к позиционированию: при отклонении спикера от центральной оси микрофона качество звука резко падает, напоминая звучание беспроводных наушников. Если пожилые родители во время беседы будут активно двигаться или поворачиваться друг к другу, оператору записи придется непрерывно контролировать положение микрофона в пространстве. Кроме того, для работы Sennheiser MKE 600 требуется внешний аудиоинтерфейс или портативный цифровой рекордер с XLR-разъемом и фантомным питанием.

💬 Цитаты

«Вы не осознаете, насколько велик экран телефона, пока клавиатура не перестанет занимать его половину.»

Майкл Фишер 42:34

«Шумоподавление — это не просто игрушка, оно влияет на качество жизни и сон.»

Шьям Голакота 23:19
👥 Спикеры
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
ANC (Active Noise Cancellation)
Технология активного шумоподавления, создающая зеркальную звуковую волну для гашения внешних шумов.
Транзиентные звуки
Внезапные, резкие и непостоянные акустические сигналы, появление которых невозможно предсказать алгоритмически.
Spotlight
Встроенная системная поисковая служба в операционных системах Apple для быстрого поиска файлов и приложений.
XLR
Тип трехконтактного разъема, используемый в профессиональном аудиооборудовании для балансной передачи звукового сигнала.
📊 Цифры
🗓 Хронология
  1. 2007 год Стив Джобс официально представляет первый iPhone и критикует фиксированные механические клавиатуры.
  2. Апрель 2023 года Майкл Фишер присоединяется к проекту Кевина Михалюка для разработки клавиатурного чехла Klix.
  3. Январь 2024 года Стартап Klix официально демонстрирует предсерийный образец устройства на выставке CES.
⚖️ Другая сторона
Технологии и IT The Vergecast Klix Apple iPhone Semantic Hearing