Представлены очки с ИИ, читающие немых

Исследователи Корнельского университета разработали интерфейс распознавания тихой речи, который использует акустическое восприятие и искусственный интеллект для непрерывного распознавания до 31 невокализованной команды на основе движений губ и рта. Маломощному носимому интерфейсу под названием EchoSpeech требуется всего несколько минут данных для обучения пользователя, прежде чем он распознает команды и сможет работать на смартфоне. Жуйдун Чжан, докторант информационных наук, является ведущим автором книги «EchoSpeech: непрерывное распознавание тихой речи в минимально навязчивых очках на основе акустического восприятия», которая будет представлена на конференции Ассоциации вычислительной техники, посвященной человеческому фактору в вычислительных системах ( CHI) в этом месяце в Гамбурге, Германия. «Для людей, которые не могут озвучивать звук, эта технология безмолвной речи может стать отличным входом для голосового синтезатора. Она может вернуть пациентам их голос», — сказал Чжан о потенциальном использовании технологии при дальнейшем развитии. В своем нынешнем виде EchoSpeech можно использовать для общения с другими через смартфон в местах, где речь неудобна или неуместна, например, в шумном ресторане или тихой библиотеке. Бесшумный речевой интерфейс также можно использовать в паре со стилусом и использовать с программным обеспечением для проектирования, таким как САПР, практически исключая необходимость в клавиатуре и мыши. Оснащенные парой микрофонов и динамиками меньшего размера, чем ластик для карандашей, очки EchoSpeech превращаются в носимую гидролокационную систему с искусственным интеллектом , отправляющую и принимающую звуковые волны по лицу и воспринимающую движения рта. Затем алгоритм глубокого обучения анализирует эти эхо-профили в режиме реального времени с точностью около 95%. «Мы перемещаем сонар на тело», — сказал Ченг Чжан, доцент кафедры информатики и директор лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi) Корнелла. «Мы очень рады этой системе, — сказал он, — потому что она действительно продвигает вперед области производительности и конфиденциальности . реальный мир.» По словам Чэн Чжан, большинство технологий распознавания немой речи ограничены набором предопределенных команд и требуют, чтобы пользователь смотрел в камеру или носил ее, что нецелесообразно и невыполнимо. По его словам, существуют также серьезные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем он взаимодействует. Технология акустического восприятия, такая как EchoSpeech, устраняет необходимость в носимых видеокамерах. А поскольку аудиоданные намного меньше, чем...

Читайте полную новость на android-robot.com

Опубликовано: 01:00, 08.04.2023

Новость из рубрики: Технологии, Наука

Поделиться новостью: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Топ новости часа