Los dos gigantes de la tecnología, Google y Amazon, han apostado abiertamente por las interfaces que reconocen los comandos de voz. Comandos que, combinados con Inteligencia Artificial e Internet de las Cosas, permiten que todo tipo de dispositivos multipliquen sus posibilidades y funciones. Además de resultar útil a los usuarios, muchos modelos de negocio podían verse impulsados o modificados dentro de la llamada Transformación Digital.
Por ejemplo, desde principios de febrero de 2017, Starbucks permite realizar pedidos a través de Alexa o Echo de Amazon, mediante la voz. En breve ampliará el servicio a una app de iPhone. Actualmente, disfrutan de esta posibilidad un grupo reducido de 1.000 personas. Para la compañía es solo un experimento del que esperan aprender.
Y es que la tecnología que hace posible este tipo de interfaces aún necesita perfeccionar algunos aspectos. La conocida anécdota de la niña que pidió una casa de muñecas a Alexa sin permiso de sus padres, y que al ser contada la noticia en televisión otros dispositivos de Amazon que escucharon el sonido del televisor volvieron a realizar pedidos similares, demuestra que hay necesidad de mejora. Otros retos que tienen los comandos por voz en dispositivos son más complejos de solventar.
Por ejemplo investigadores han descubierto que los usuarios que se acostumbran a usar la voz para manejar dispositivos u ordenadores son propensos a las distracciones, más que si usan ratón y teclado.
Esto es especialmente peligroso en las interfaces de voz para coches, pues sendos estudios de la Universidad de Utah confirmaron que los conductores se distraen durante un máximo de 27 segundos después de preguntarle a su navegador o smartphone.
Aunque también hay muchos aspectos positivos de este tipo de tecnología. Sin contar con la ayuda a la accesibilidad universal para discapacitados, su uso es muy útil para el aprendizaje de idiomas (mediante la corrección de la pronunciación, por ejemplo) o tratamiento de la dislexia.
Mejorando una tecnología compleja
El desarrollo de las interfaces por voz parten de una estructura de funcionamiento que es de por sí compleja y ha de superar diferentes fases:
- Escuchar el sonido de su voz, y distinguirlo de ruido de fondo
- Averiguar donde comienza y termina cada palabra, haciendo caso omiso de sus «uhmms» y «eeehs»
- Comprobar que coincide con el sonido de cada palabra de una palabra en el diccionario, escogiendo el más adecuado a partir del contexto si hay homófonos
- Interpretar correctamente el significado de la frase entera
- Generar una respuesta significativa y útil que corresponda a su búsqueda.
- En ocasiones, debe entablar una conversación, en cuyo caso se suman los retos como vimos en este otro artículo.
Por si fuera poco, al dispositivo también le pedimos que compruebe la identidad de la voz, si es el usuario autorizado el que quiere desbloquear o hacer un pedido, por ejemplo.
Un proyecto europeo busca que las máquinas escuchen mejor
Aunque algunas de las cuestiones vistas ya están siendo resueltas por los líderes como Google gracias a su ingente base de datos de sus usuarios combinada con la inteligencia artificial y el machine learning, especialistas independientes trabajan en encontrar sus propias soluciones. Es el caso del proyecto LISTEN, cuya ambición central es diseñar e implementar un entorno de hardware y software que permita un acceso fiable, con manos libres y basado en voz a aplicaciones web en hogares inteligentes.
Este entorno combina un sistema de captura de voz que funciona como una red inalámbrica de sensores acústicos (WASN) con un sistema automático de reconocimiento de voz.
El nuevo sistema, que reconoce hasta cuatro idiomas (inglés, francés, italiano y griego), permite a los usuarios encender varios aparatos inteligentes, pero también realizar acciones habituales como la búsqueda en la web, el dictado por correo electrónico, el acceso a las redes sociales, Etc. Todo esto, sin auriculares o la necesidad de hablar cerca de un micrófono. Puede conocer más detalles del proyecto en su web.