Mirá quien habla

Las distintas entonaciones con las que se enuncian las frases cambian por completo su significado. El trabajo que lleva adelante Agustín Gravano apunta a que las computadoras no sólo sean capaces de comprender el lenguaje hablado y puedan reproducirlo sino que también puedan alcanzar una correcta interpretación de la prosodia, es decir, de las inflexiones de la voz.

6 de julio de 2018

En la película 2001: Una odisea espacial, la supercomputadora Hal 9000, responsable del funcionamiento de toda una nave espacial, mantiene memorables diálogos con el comandante de la misión. La máquina no sólo cumple con eficiencia sus obligaciones, hasta extremos insospechados, sino es que capaz de percibir claramente las emociones de su interlocutor.

“La voz de HAL es bastante monótona pero entiende muy bien al ser humano. Eso es muy común en la ciencia ficción: la computadora es muy buena entendiendo al ser humano pero a la hora de hablar es robótica. Es un estereotipo. La realidad es al revés, todavía sigue siendo mucho más fácil que la voz suene natural, que lograr que la computadora entienda al ser humano”, dice Agustín Gravano, que del tema entiende y mucho, porque, justamente, trabaja en la línea de investigación en procesamiento del habla, en el marco del Laboratorio de Inteligencia Artificial Aplicada (LIAA) del Departamento de Computación.

La inteligencia artificial es una disciplina que intenta reproducir todas las funciones que definen a la inteligencia del ser humano, entre ellas, el lenguaje oral. “Dentro del procesamiento del habla, yo trabajo con sistemas de diálogo hablado”, explica el investigador. Estos sistemas son los bien conocidos asistentes virtuales, como por ejemplo, Alexia de Amazon, Cortana de Microsoft, Siri en Apple o Google Now en Google. Con todos ellos se puede dialogar. También están presentes en muchos sistemas telefónicos a los cuales se llama para realizar alguna transacción o pedir información. “Mi trabajo consiste en ver cómo mejorar la naturalidad de estos sistemas. Por naturalidad se entiende que sea lo más parecida posible a una conversación entre dos personas. Por supuesto que todavía estamos a años de trabajo de lograr algo así, pero si uno mira lo que eran los sistemas de hace 10 ó 15 años nomás, se ve que se ha avanzado mucho”, afirma.

En lo que más se ha avanzado es en la precisión con la que la computadora reconoce las palabras para pasarlas a un texto escrito. “Ahora viene una etapa, en la que ya venimos trabajando hace un tiempo, y que empieza a tener cada vez más importancia, que es la etapa en la que todo aquello que no sean las palabras -la prosodia- sea interpretado de la manera correcta”, explica Gravano. La prosodia es la entonación, la velocidad, los cambios en las inflexiones de la voz. Porque no es lo mismo susurrar que hablar fuerte. Los seres humanos tenemos herramientas en la prosodia que nos permiten reconocer distintos significados en las mismas palabras. Una misma secuencia de palabras puede ser transformada en pregunta, en una orden o una sugerencia según sea la entonación utilizada.

“Mi trabajo apunta a ver cómo interpretar bien la prosodia. Sabemos cuáles son las palabras que se dijeron, ahora tenemos que ver cómo se dijeron, qué información podemos sacar que nos termine de completar el mensaje que la persona está emitiendo. Y del otro lado también: que la computadora pueda hablar de manera más expresiva, con inflexiones en la voz, incorporarle pausas, variaciones, esos cambios en la prosodia que nosotros manejamos sin pensar”, dice el investigador.

Para conseguirlo, el grupo trabaja con una técnica llamada “aprendizaje automático”, que consiste en que la computadora reciba ciertos datos de entrenamiento obtenidos de grabaciones de conversaciones que se usarán como referencia para construir modelos estadísticos. Una vez que se le enseñe cómo trabajar con esos datos, luego la computadora aprenderá sola. Es decir, “la máquina aprende a encontrar patrones o características que se repiten en distintas expresiones. Por ejemplo, si una persona está enojada, es común que levante el tono de voz, que hable más fuerte, más rápido. También las preguntas tienen una cierta entonación. Cada sonido es traducido en información que le permite a la computadora reconocer la intencionalidad de lo que se está diciendo. Cada sonido tiene atributos, características. Por ejemplo la intensidad, el tono de voz. Con estos atributos que se extraen de la señal, la computadora aprende a detectar preguntas, afirmaciones y diversas cosas. Estos son los patrones que la computadora aprende sola. De este modo, cuando escucha audios nuevos, puede poner en práctica esas reglas y decidir si es una pregunta o una afirmación, si la persona está enojada o está contenta”, detalla Gravano.

Si bien en la actualidad se escucha cada vez más hablar de deep learning o redes neuronales profundas, que es la técnica que está revolucionando la inteligencia artificial, dentro del aprendizaje automático, lograr que las computadoras entiendan las inflexiones, las sutilezas como la ironía o el sarcasmo todavía escapa a las posibilidades de los científicos. “Se nos escapan, todavía por lejos, ese tipo de cosas. En este momento sólo somos capaces de detectar emociones fuertes del tipo ‘el usuario está enojado’. Esto ya se usa en empresas. Cuando se detecta que un usuario está enojado puede pasarse automáticamente la llamada a un supervisor o hacer algo al respecto. Pero en las sutilezas ya estamos trabajando. En la academia siempre estamos un par de pasos delante de lo que ya está funcionando en la industria”, sostiene Gravano.

(De izq. a der.) Agustín Gravano, Pablo Brusco, Juan Manuel Pérez, Ramiro Gálvez. Foto: Diana Martinez Llaser.

Grupo de Procesamiento del Habla

(LIAA – Departamento de Computación – CONICET)

Entrepiso, Departamento de Computación, Pabellón 1, 5285-7478

https://liaa.dc.uba.ar

Investigador en la línea de investigación: Agustín Gravano

Tesistas de doctorado: Pablo Brusco, Juan Manuel Pérez, Ramiro Gálvez

Patricia Olivella