Los dispositivos con reconocimiento de voz pierden su funcionalidad cuando el usuario no puede vocalizar a determinado volumen o el ruido externo es demasiado alto. Para solucionarlo han creado un dispositivo de reconocimiento de voz silencioso (SSR) que puede identificar comandos silenciosos usando imágenes de deformación de la piel en el cuello y la cara capturada por una cámara infrarroja (IR) montada en el cuello. En las pruebas realizadas el dispositivo ha sido capaz de identificar comandos en inglés y en mandarín.
Cuando no podemos hablar a nuestro asistente de voz
¿Qué sucede si una persona no puede hablar o si el habla vocalizada en un entorno particular no es posible o apropiada? Cheng Zhang , profesor asistente de ciencias de la información en la Facultad de Informática y Ciencias de la Información Ann S. Bowers de Cornell, y el estudiante de doctorado Ruidong Zhang tienen una respuesta. Su tecnología se detalla en » SpeeChin: un collar inteligente para el reconocimiento de voz silencioso «, publicado el 31 de diciembre en Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies. Ruidong Zhang también presentará el documento en octubre en la conferencia Ubiquitous Computing (UbiComp 2022).
Interface de voz en un collar inteligente
“Hay dos preguntas: Primero, ¿por qué un collar? Y segundo, ¿por qué hablar en silencio? dijo Zhang. “Creemos que un collar es un factor de forma al que la gente está acostumbrada, a diferencia de los dispositivos montados en la oreja, que pueden no ser tan cómodos. En cuanto al habla silenciosa, la gente puede pensar: ‘Ya tengo un dispositivo de reconocimiento de voz en mi teléfono’. Pero para ello necesita vocalizar el sonido, y eso puede no ser siempre socialmente apropiado, o es posible que la persona no pueda vocalizar el habla.
“Este dispositivo tiene el potencial de aprender los patrones del habla de una persona, incluso con habla silenciosa”, dijo.
“Estamos introduciendo un factor de forma completamente nuevo, un nuevo hardware, en este campo”, dijo Ruidong Zhang, quien construyó el prototipo original en 2020 en su casa en China, mientras completaba el primer año de su programa de doctorado de forma remota.
El dispositivo es similar en apariencia a NeckFace , una tecnología que Cheng Zhang y los miembros de su equipo de SciFi Lab dieron a conocer el año pasado. NeckFace realiza un seguimiento continuo de las expresiones faciales completas mediante el uso de cámaras infrarrojas para capturar imágenes de la barbilla y la cara debajo del cuello.
Al igual que NeckFace, SpeeChin cuenta con una cámara IR montada en una caja de collar impresa en 3D, que cuelga de una cadena de plata con la cámara apuntando hacia la barbilla del usuario. Para una mayor estabilidad, los desarrolladores diseñaron un ala en cada lado y colocaron una moneda en la parte inferior.
La conveniencia y la privacidad, dijo Cheng Zhang, son dos razones por las que una cámara IR montada en un collar podría ser preferible a una cámara tradicional frente a la cara.
“Una cámara frente a tu cara está tomando fotos de lo que hay detrás de ti”, dijo, “y eso plantea problemas de privacidad”.
Para su experimentación inicial, que contó con 20 participantes (10 de habla inglesa, 10 de chino mandarín), se tomaron medidas para determinar la posición inicial del mentón y luego se usaron imágenes diferenciales para entrenar el dispositivo para reconocer comandos simples.
Ruidong Zhang hizo que los participantes pronunciaran 54 comandos en inglés, que consisten en dígitos, comandos interactivos, comandos de asistente de voz, comandos de puntuación y comandos de navegación. Luego hizo lo mismo con 44 palabras o frases sencillas en mandarín.
SpeeChin reconoció comandos en inglés y mandarín con una precisión promedio de 90,5 % y 91,6 %, respectivamente.
Para probar aún más sus límites, los investigadores realizaron otro estudio con 10 participantes, todos pronunciando en silencio una lista especialmente diseñada de 72 «no palabras» de una sílaba usando fonemas: combinaciones de 18 consonantes y cuatro vocales.
Finalmente, los investigadores reclutaron a seis participantes para que pronunciaran 10 frases en mandarín y 10 en inglés mientras caminaban. Las tasas de éxito fueron más bajas en este estudio, debido en parte a la variación en los estilos de caminar (más versus menos movimiento de la cabeza, por ejemplo) entre los participantes.
El proyecto ilustra el poder de la determinación: Ruidong Zhang construyó un laboratorio en su casa, completo con una estación de soldadura, y reclutó a personas de su ciudad natal como participantes del estudio.
“Pero debido a que vivo en una ciudad pequeña y es difícil encontrar personas que hablen inglés”, dijo, “en realidad terminamos en HangZhou, en la Universidad de Zhejiang, para reclutar angloparlantes. Fue una experiencia inolvidable para mí.”
El apoyo para este trabajo provino del Departamento de Ciencias de la Información de Cornell, y parcialmente de una subvención inicial de la Universidad Jiao Tong de Shanghai-Cornell del Centro de China de Cornell .
Fuente: Cornell University
También te puede interesar estas noticias sobre interfaces y dispositivos de voz:
- Teclados con reconocimiento gestual de manos
- Sistemas de Voz artificial y emulación de la personalidad
- Sistemas de traducción simultánea inteligente
- Duelo de asistentes personales AI
- Interfaz cerebro-máquina para convertir pensamientos en acciones
- Interfaces y Teclados de Realidad Virtual o Aumentada
- Tecnologías de voz para comercio electrónico
- Conversión de texto a voz con aprendizaje automático
- La domótica impulsa mejorar los comandos de voz