Quién más quién menos ha hablado con una máquina inteligente que atiende a comandos de voz y responde igualmente. Las grabaciones preconfiguradas que nos dan las gracias en la gasolinera o nos avisan de nuestro vuelo en el aeropuerto fueron solo soluciones de baja tecnología hasta que los procesos digitales han permitido a las máquinas pensar lo que van a decir y convertirlo en fonemas de lenguaje humano. El nuevo reto de la Inteligencia Artificial es que las máquinas que nos hablan lo hagan cada vez más parecido a una conversación humana, pero también nos escuchen y sepan distinguir nuestras intenciones, emociones y hasta si realmente somos nosotros quienes hablamos.
Engañando a las máquinas
A principios de año, en Dallas (Texas, USA) saltó la noticia de que los dispositivos Amazon Echo, capaces de hacer pedidos mediante comandos por voz, estaban realizando compras por su cuenta al escuchar las órdenes en los diálogos de los anuncios de televisión. Igualmente, se produjeron casos de niños que aprendían rápidamente a pedir sus deseos a la máquina. Para lo segundo, el dispositivo ahora llamado Alexa de Amazon, dispone de filtros como códigos de seguridad que impiden la compra no autorizada, pero para lo primero no es tan fácil. Sería necesario un sistema de reconocimiento de voz personalizada. Y para casos más extremos de dispositivos de seguridad, capaz de detectar si es una imitación, una grabación o algún tipo de fraude. De la misma manera que la identificación por huella dactilar puede no ser suficientemente segura en algunos casos, nuestra voz también puede ser hackeada.
Escuchar también con imágenes
Un patrón de autenticación del lenguaje verbal es el comportamiento no verbal cuando una persona habla. Concretamente, la expresión de la cara puede revelar información complementaria suficiente para discernir si el interlocutor miente o dice la verdad, o cuál es el verdadero tono y sentimiento de lo que quiere expresar.
El uso combinado de estos datos por los robots, gracias al Machine Learning, pueden ser clave en los desarrollos de sistemas de interfaces verbales.
Se sabe que la información visual como el movimiento de los labios, afecta a la percepción de la información de los oídos cuando se habla con alguien cara a cara. Por ejemplo, el movimiento de labios puede ayudar a una persona para oír mejor en condiciones ruidosas. En una película doblada sucede lo contrario: los conflictos entre el movimiento de los labios con la voz de un orador, da al oyente la ilusión de escuchar otro sonido. Esta ilusión se llama el «efecto McGurk.»
Una investigación japonesa ha descubierto sin embargo, que esos patrones visuales no son idénticos en todas las culturas. Que no reaccionamos visualmente igual ni nos comportamos de la misma manera según de dónde seamos.
«Los hablantes nativos de inglés intentan reducir los sonidos entrantes mediante el uso de la información de los labios, que empiezan a moverse unos pocos cientos de milisegundos antes de que comiencen las vocalizaciones. Los hablantes nativos de japonés, por el contrario, ponen su énfasis sólo en la audición, y la información de primera vista sería solo para requerir un procesamiento adicional «, explicó el profesor de la Universidad de Kumamoto Kaoru Sekiyama, que dirigen la investigación.
Es decir, de acuerdo con un análisis de los estudios de comportamiento anteriores, los hablantes nativos de japonés no están influenciados por el movimiento de los labios tanto como los angloparlantes nativos. Para examinar este fenómeno aún más, los investigadores de la Universidad de Kumamoto midieron y analizaron patrones de la mirada, las ondas cerebrales, y los tiempos de reacción para la identificación de voz entre dos grupos de 20 hablantes nativos de japonés y 20 hablantes nativos de inglés.
La diferencia era clara. Cuando el habla natural está emparejado con el movimiento de labios, los hablantes nativos de inglés centran su mirada en los labios de quien habla antes de la aparición de cualquier sonido. La mirada de los hablantes nativos de japonés, sin embargo, no es tan fija.
Engañando al oído humano
Para lograr un sonido natural en los sistemas de voz digitales, se requieren datos en paralelo de dos hablantes combinados. Dos grabaciones con personas distintas diciendo las mismas frases con el vocabulario necesario, que luego se sincronizan y se utilizan para crear una nueva voz. Esto supone un handicap para que los sistemas inteligentes pueden empezar a improvisar sin que suenen artificiales. Un nuevo modelo de Conversión de Voz (VC) desarrollado por la Universidad de Electrocomunicaciones de Tokio utiliza datos no paralelos para crear voz sin este entrenamiento previo.
Su nuevo método de VC se basa en la simple premisa de que las características acústicas del lenguaje se componen de dos capas: la información fonológica neutral perteneciente a ninguna persona específica, y “la identidad del interlocutor” o características que hacen que las palabras suenen como si vinieran de un determinado hablante. El modelo de Nakashika, ayuda a deconstruir el habla, conservando la información fonológica neutral pero reemplazando la información específica del hablante. Después de las pruebas, el modelo fue comparable con los modelos entrenados en paralelo existentes, con la ventaja añadida de que los nuevos sonidos de fonemas que se pueden generar permiten la generación del habla con un idioma diferente.