Habla artificial más expresiva, natural y controlable

.

¿Dijiste que querías reservar un vuelo a Austin… o Boston?

Incluso un ser humano a veces tendría dificultades para diferenciar los nombres de estas dos ciudades; suenan bastante similares. Una IA en un diálogo con un usuario también podría fallar fácilmente.

La tecnología de síntesis de habla en los asistentes de voz podría ayudar, al emular el tipo de expresividad que los humanos despliegan naturalmente en la comunicación cara a cara. En un reciente artículo de IBM Research[1], el equipo describe un sistema que puede enfatizar o resaltar ciertas palabras para mejorar la expresividad de una oración como “¡Esa es una excelente idea!” o ayudar con la ambigüedad del contexto en un escenario como el de “Austin versus Boston”.

Esa es solo una de las innovaciones en la síntesis de secuencia a secuencia. Como parte de una colaboración entre el equipo de IBM Research de Inteligencia Artificial Text-to-Speech (Texto a Habla) e IBM Watson, el objetivo es llevar esta funcionalidad de expresividad al servicio IBM Watson Text to Speech (TSS, por sus siglas en inglés). En los últimos años, TTS ha logrado un rendimiento de vanguardia con la introducción de arquitecturas secuencia a secuencia neuronales profundas que proporcionan resultados de alta calidad que se acercan a la propiedad perceptual del habla natural.

La idea principal es simple: alejarse de un enfoque clásico que une varios módulos desarrollados de forma independiente en un solo modelo que entrena todos los componentes de un extremo a otro. Esta elección es efectiva pero tiene un costo. Dado que los diferentes componentes ya no son responsables de una función específica, es difícil intervenir en el proceso de síntesis para controlar un aspecto particular de la salida.

Para resolver este problema, el equipo de IBM propone utilizar una variante de la arquitectura Tacotron-2 de múltiples altavoces[2], que consta de un codificador y un decodificador mediado por un mecanismo de atención. Este modelo base toma una representación de entrada del texto, más algunos conocimientos sobre la identidad del hablante y los codifica mediante una combinación de redes recurrentes convolucionales y bidireccionales. Luego, la secuencia codificada se envía al decodificador espectral que consulta con el módulo de atención para averiguar cómo alinear la entrada codificada con las características acústicas de la forma de onda de salida.

El enfoque del equipo para introducir controlabilidad en el sistema es simple. Sabemos que para resaltar algunas palabras, los hablantes tienden a desviarse del resto de la oración en términos de propiedades prosódicas acústicas como la velocidad del habla y la frecuencia fundamental.

Tomemos, por ejemplo, la oración que podría surgir en un diálogo con un asistente: «No entendí del todo bien. ¿Dijiste que tu nombre era Greg o Craig?”. Si se tratara de un diálogo entre humanos, el hablante podría transmitir la incertidumbre de la situación al aumentar el volumen y el tono de las palabras resaltadas, articulándolas más clara y lentamente, y quizás agregar antes algunas pausas breves, pero perceptibles.

Para que el sistema de síntesis de habla haga lo mismo, el equipo expuso el modelo durante el entrenamiento a una serie de parámetros acústicos-prosódicos extraídos de las formas de onda de entrenamiento de salida[3]. Esto le dio al sistema la oportunidad de asociar estas entradas prosódicas con un énfasis en la salida. Durante la inferencia, cuando estas medidas no estaban disponibles, un predictor entrenado por separado las completó. Para igualar el nivel de énfasis deseado, el valor de estos controles prosódicos podría incrementarse por defecto o por compensaciones aditivas proporcionadas por el usuario.

Equipar a los asistentes de voz con tales capacidades expresivas podría ayudar a hacerlos “más humanos”, y también proporcionar un mecanismo más eficiente para la interacción y una experiencia de usuario más agradable.

 

*Si quiere conocer más sobre el entrenamiento y trabajo de los investigadores, puede encontrar más detalle y ejemplos aquí.

[1]Enfoques supervisados y no supervisados para controlar el léxico estrecho en la síntesis del habla secuencia a secuencia”,

[2] Descrita en “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions”. J. Shen, R. R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R.A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions,” in Proc. ICASSP, Calgary, Canada, 2018, pp. 4779–4783.

 

[3] S.  Shechtman, R. Fernandez, and D. Haws “Supervised and Unsupervised Approaches for Controlling Narrow Lexical Focus in Sequence-to-Sequence Speech Synthesis,” https://arxiv.org/abs/2101.09940