La conversión de texto a voz de forma natural es una vieja aspiración de los desarrolladores de software y apps que parece tendrá respuesta gracias al nuevo servicio de Google Cloud Text-to-Speech. Además, aprovechando los desarrollos previos de Google Cloud Platform, está previsto que disponga de aprendizaje automático.
La API presentada en el blog de Google Cloud habla de la posibilidad de crear interacciones con los usuarios, entre aplicaciones y dispositivos que pueden enviar una solicitud REST o gRPC. Eso incluye teléfonos, PC, tabletas y dispositivos IoT (por ejemplo, automóviles, televisores, altavoces).
Entre las aplicaciones más probables que aprovechen esta tecnología veremos la automatización del centro de llamadas y las respuestas interactivas de los dispositivos IoT. De hecho, clientes como Cisco o Dolphin ONE ya lo han integrado y sus usuarios prueban con experiencias reales en sus Call Centers.
Google Cloud Platform es un conjunto de servicios de computación en la nube que se ejecuta en la misma infraestructura que Google usa internamente para productos como la Búsqueda de Google y YouTube.
Los desarrolladores tendrán acceso al mismo motor de texto a voz desarrollado por DeepMind que la compañía está utilizando actualmente para su asistente y para su dirección de Google Maps.
Cloud Text-to-Speech también incluye una selección de voces de alta fidelidad creadas con WaveNet, un modelo generativo para audio en bruto creado por DeepMind. WaveNet sintetiza un sonido más natural y, en promedio, produce audio de voz que las personas prefiera sobre otras tecnologías de texto a voz
Aprendizaje automático y tecnología de voz
Según quienes lo han probado, la investigación de Deep Mind en modelos de aprendizaje automático para generar un discurso que imita las voces humanas ha tenido éxito.
El discurso suena natural, y el equipo afirmó que redujo la brecha con el rendimiento humano en más del 50%.
La clave está en que a diferencia de los esfuerzos anteriores, WaveNet no hace síntesis de voz basada en una colección de fragmentos de voz cortos, lo que tiende a crear el tipo de voces robóticas con las que seguramente está familiarizado. En cambio, WaveNet modela audio sin procesar usando un modelo de aprendizaje automático para crear un discurso mucho más natural »
WaveNet Permite a los desarrolladores sintetizar voz natural con 30 voces. Además, está disponible en múltiples idiomas y variantes. La web oficial asegura que admite 32 voces en 12 idiomas y variantes. los desarrolladores podrán personalizar el tono, la velocidad de conversación y la ganancia de volumen de los archivos MP3 o WAV que generará el servicio.
Text-to-Speech, DeepMind y WaveNet
A finales de 2016, DeepMind presentó la primera versión de WaveNet, una red neuronal entrenada con un gran volumen de muestras de voz que es capaz de crear formas de onda de audio en bruto desde cero. Durante el entrenamiento, la red extrae la estructura subyacente del discurso, por ejemplo, qué tonos se suceden y qué forma debe tener una forma de onda de voz realista.
Cuando se le da entrada de texto, el modelo de WaveNet entrenado genera las formas de onda de voz correspondientes, una muestra a la vez, logrando una mayor precisión que los enfoques alternativos.
Ahora estan usando una versión actualizada de WaveNet que se ejecuta en la infraestructura Cloud TPU de Google. El nuevo y mejorado modelo WaveNet genera formas de onda en bruto 1000 veces más rápido que el modelo original, y puede generar un segundo de voz en solo 50 milisegundos. De hecho, el modelo no solo es más rápido, sino también de mayor fidelidad, capaz de crear formas de onda con 24,000 muestras por segundo. También hemos aumentado la resolución de cada muestra de 8 bits a 16 bits, produciendo audio de mayor calidad para un sonido más humano.
FUNCIONES DE TEXTO A VOZ EN LA NUBE
- Plurilingüe
- Admite 32 voces en 12 idiomas y variantes, con más por venir pronto
- Ondas de Wavenet
- Acceso exclusivo a las voces de DeepMind WaveNet que proporcionan el habla más natural
- Soporte de texto y SSML
- Personaliza tu discurso con etiquetas SSML que te permiten agregar pausas, números, formateo de fecha y hora y otras instrucciones de pronunciación
- Ajuste de frecuencia de habla
- Personalice su velocidad de habla para que sea 4 veces más rápida o más lenta que la frecuencia normal
- Afinación de tono
- Personalice el tono de su voz seleccionada, hasta 20 semitonos más o menos que la salida predeterminada
- Control de ganancia de volumen
- Aumente el volumen de la salida hasta 16db o disminuya el volumen hasta -96db
- Flexibilidad de formato de audio
- Elija entre varios formatos de audio, incluidos mp3, Linear16 y Ogg Opus
Fuente: GoogleBlog.com