Comparte

PERSPECTIVA DIGITAL Practia Global 13/08/2019
INTELIGENCIA ARTIFICIAL
y procesamiento del lenguaje
Son muchas las investigaciones mundiales que trabajan denodadamente para entender la complejidad subyacente en nuestro lenguaje. ¿Para qué? Para poder enseñarles a las máquinas a responder con órdenes de voz de manera cada vez más natural.

Aquí dos investigadores nos cuentan por dónde andamos.


A diario empleamos el lenguaje oral sin percatarnos de la cantidad y la complejidad de los procesos involucrados. Y muchos de dichos procesos plantean tremendas dificultades para los sistemas informáticos. Uno de los temas que me ocupan como investigador es modelar la coordinación que tenemos los humanos en una conversación, para incorporar ese conocimiento a los sistemas de diálogo hablado.
Existen múltiples manifestaciones de esa coordinación. Una es el timing preciso de los intercambios de turnos conversacionales, que se alternan con marcada fluidez. Otra es la mimetización entre hablantes, que consiste en la alineación o sincronización de determinadas características del habla entre los participantes de un diálogo. De esta última nos ocuparemos en estas líneas. Todas estas formas de coordinación involucran un componente clave: la prosodia, la cual incluye variables tales como el nivel tonal (agudo/grave), la intensidad (volumen alto/bajo), el uso de contornos de entonación y la velocidad del habla, entre otras. 
La variación prosódica es extremadamente compleja y los sistemas de procesamiento del habla todavía no son capaces de manejar estas características en forma correcta, debido a la extraordinaria variabilidad del fenómeno y a las dificultades para describirlo formalmente. En consecuencia, la ausencia de un manejo adecuado de
la prosodia conduce a que el habla artificial resulte mecánica, extraña y hasta
carente de sentido.

LO COMPLEJO DE LO NATURAL

Una característica importante del diálogo entre humanos que aún no ha sido incorporada a los sistemas de diálogo es la mimetización entre interlocutores. En la literatura de la Psicología del Comportamiento se ha observado que, bajo ciertas condiciones, cuando una persona mantiene una conversación, va modificando su
manera de actuar y de hablar, adaptándose dinámicamente a la forma actuar y de hablar de su interlocutor. Así, las dos personas adoptan iguales formas léxicas para referirse a elementos de la realidad, negocian tácitamente descripciones compartidas, y hasta usan estructuras sintácticas parecidas. Es un fenómeno subconsciente conocido como “mimetización”, “alineamiento”, “adaptación” o “convergencia”. Este
rasgo tan humano juega un rol clave en la coordinación de diálogos, facilitando la producción y la comprensión del habla entre personas.
Un abordaje sobre el tema que venimos empujando en mi grupo de investigación desde hace casi una década involucra la utilización de técnicas
estadísticas y de Machine Learning para encontrar modelos descriptivos de la mimetización de diversas variables prosódicas. Por ejemplo, en un corpus de grabaciones en español de Argentina recolectado especialmente, observamos que distintos pares de hablantes comenzaban con valores disímiles en una variable prosódica determinada (por ejemplo, la intensidad) y a medida en que la conversación avanzaba esos valores se aproximaban entre sí (es decir, convergían).
Los resultados obtenidos de estas investigaciones, no obstante, no siempre fueron claros, y a veces hasta resultaron contradictorios. Cada diálogo analizado se encuadró en uno de estos tres escenarios: i) existencia de alineamiento, ii) existencia de desalineamiento (¡el fenómeno opuesto!), iii) ninguno de los escenarios anteriores. Es importante resaltar que estos resultados difirieron de una distribución aleatoria: la evidencia de la existencia de alineamiento y desalineamiento fue en todos los
casos pronunciada y estadísticamente significativa, lo cual descarta que los resultados observados pudieran ser  explicados como una consecuencia del azar. En cambio, nos parece probable que existieran factores determinantes de cuál de los tres escenarios tendrían lugar en cada conversación. En este contexto, hipótesis tomadas de la Psicología del Comportamiento sugieren que la mimetización tiene una
presencia más marcada 1) en individuos con fuerte empatía disposicional (la capacidad de ponerse en el lugar del otro) 2) cuando los interlocutores tienen afinidad interpersonal (se caen bien mutuamente) y 3) cuando están compenetrados en la tarea que están desarrollando en conjunto. A partir de estas hipótesis, surgen nuevos interrogantes en nuestra línea de trabajo: ¿cómo afectan a la aparición de mimetización prosódica los rasgos interpersonales de los hablantes y su grado de
compenetración en la tarea? ¿Puede ser que la causalidad sea a la inversa: que la mimetización sea una causa de la afinidad y de la compenetración de las personas? Para buscar las respuestas, necesitamos incorporar nueva información a nuestros estudios, como tipos de personalidad, grados de empatía interpersonal y nivel de interés en la tarea desarrollada. Además, debimos abandonar el paradigma de estudio de corpus de grabaciones para abordar el problema con un enfoque experimental, en el cual los participantes interactúan con sistemas de diálogo experimentales programados con distintas políticas de mimetización, de modo de observar el efecto de cada política en el desarrollo de los diálogos. 
Todo lo anterior nos sirve como disparador para nuevas investigaciones, que estamos llevando adelante en la actualidad.

Cada vez más soñamos con crear una máquina que emule nuestros
diálogos. Por supuesto, las conversaciones entre humanos y dispositivos tienen aún un arduo camino por recorrer.


A FALTA DE EJEMPLOSBUENOS SON LOS PUNTOS EN EL ESPACIO
El aprendizaje del lenguaje humano por parte de la inteligencia artificial es uno de los desafíos de nuestro tiempo. Más allá de órdenes sintácticas y semánticas, la aplicación de embeddings neuronales permite partir de representaciones de las palabras en espacios vectoriales, donde cada dimensión aporta a la comprensión del significado.

La decodificación del lenguaje humano es uno de los problemas centrales de la inteligencia artificial, y estamos lejos de resolverlo completamente. Los matices, las composiciones semánticas, la gran dependencia del contexto vuelven la tarea de comprender el significado del texto mucho más compleja que simplemente
buscar en un diccionario las palabras que lo componen.
¿Cómo lo logramos hoy? En lugar de elaborar extensos y sofisticados conjuntos de reglas que dirijan la interpretación, aplicamos algoritmos de aprendizaje automático. Es decir: presentamos ejemplos, como preguntas y sus correspondientes respuestas, y dejamos que un algoritmo aprenda reglas automáticamente. De esta forma permitimos que el algoritmo descubra cómo las palabras y la forma en que están dispuestas en el texto son relevantes a la hora de resolver una tarea, en
este caso, responder a una pregunta.
Estos algoritmos son ciertamente muy poderosos, pero solo pueden hacer predicciones confiables sobre casos que hayan visto previamente. 
Ante un caso que no tenga nada en común con ninguno de los ejemplos aprendidos, es incapaz de “improvisar”. Esto supone un techo de rendimiento muy difícil de superar para el procesamiento del lenguaje natural basado en ejemplos. Este problema se ha tratado de resolver añadiendo más y más ejemplos, pero esta solución
tiene, a su vez, dos limitaciones más: la primera es que el lenguaje natural es infinito y que siempre nos encontraremos ante nuevos casos no vistos. La segunda, que para muchas tareas es costoso generar los ejemplos de aprendizaje, ya que suelen requerir
intervención de expertos humanos.

EN BUSCA DE UNA SOLUCIÓN
Para abordar este problema, nos inspiramos en cómo los humanos aprendemos adecuadamente a partir de un número relativamente pequeño de ejemplos: mediante generalización.
Los algoritmos de aprendizaje automático más sofisticados tratan de incorporar mecanismos de generalización que permitan tratar casos nunca vistos.
En particular, en el lenguaje natural, la generalización suele involucrar acercarnos
al significado o a la intención subyacente al texto. Más técnicamente, queremos acercarnos a la causa latente que generó una expresión lingüística. Por ejemplo, para describir un texto, en lugar de quedarnos en las palabras que lo componen, queremos
llegar hasta los conceptos que expresa (independientemente de las palabras
que use para expresarlos) o hasta la intención comunicativa del autor (convencer, conmover, argumentar, cuestionar, apelar…).
En este camino nos encontramos con métodos alentadores: los llamados “proyectivos” o “de embeddings”.

INFERIR LOS SIGNIFICADOS: HIPÓTESIS DISTRIBUCIONAL
Ya Zellig Harris, en 1954, desarrolló la hipótesis distribucional, que sostiene que podemos inferir el significado de una palabra sobre la base de las otras que la rodean. Por ejemplo, si no sabemos lo que es un “lichi”, a partir del ejemplo de texto que utiliza
esta palabra podemos obtener algunas conclusiones: que los chefs usan lichis en sus platos, que tienen un sabor ligeramente dulce, que son tropicales… de esta forma podemos construir su significado.
La hipótesis distribucional no es nueva y se ha aplicado en diferentes versiones, pero en los últimos años ha conocido un gran desarrollo gracias a los embeddings neuronales. Como en los enfoques clásicos basados en la hipótesis distribucional, los embeddings neuronales parten de una representación de las palabras en un espacio
vectorial, donde cada dimensión es una de las palabras que puede acompañar a otra palabra en un texto. Pero los embeddings neuronales aportan dos grandes avances: primero, obtienen información a partir de texto sin procesamiento humano adicional. Por otro lado, se pueden calcular de forma distribuida, y así procesar grandes
volúmenes de datos. Estas dos propiedades se complementan perfectamente con dos evoluciones recientes de nuestra sociedad: la gran cantidad de textos disponibles libremente en formato electrónico y la gran capacidad de cómputo.
El resultado de aplicar embeddings neuronales es descubrir nuevas dimensiones en las que describir las palabras o los textos. En estas nuevas dimensiones, las palabras ya no se caracterizan por las otras palabras que las pueden acompañar, sino por conceptos más abstractos, inferidos de su comportamiento en miles de millones de ejemplos.
Por el momento, no podemos interpretar el significado de estas nuevas dimensiones, pero sí observar que se corresponden bien con nuestras intuiciones
sobre el significado. Por ejemplo, si representamos en estas nuevas dimensiones la palabra “rey”, le restamos la representación de “hombre” y le sumamos la representación de “mujer”, obtenemos un punto muy cercano a “reina”. En otras palabras, en estas nuevas dimensiones conseguimos representar que si le sacamos los valores que tienen que ver con lo masculino al concepto “rey” y le agregamos
los valores que describen lo femenino, entonces cambiamos su significado a algo similar a “reina”.
Uno de los casos más icónicos es el algoritmo word2vec, implementado por Mikolov en el año 2013. Este algoritmo y otros semejantes se han aplicado para obtener embeddings neuronales de palabras, mejorando el rendimiento en multitud de tareas
de procesamiento del lenguaje natural. Pero su efectividad no se limita al lenguaje natural: también en el procesamiento de imágenes los embeddings neuronales están aportando muy buenos resultados. Sin embargo, esta es solo la punta del iceberg en el procesamiento del lenguaje natural; aún queda mucho camino que recorrer hasta llegar a una verdadera comprensión del lenguaje humano.

El resultado de aplicar embeddings neuronales es descubrir nuevas dimensiones en las que describir las palabras o los textos. En estas nuevas dimensiones, las palabras ya no se caracterizan por las otras palabras que las pueden acompañar, sino por conceptos más abstractos, inferidos de su comportamiento en miles de millones de
ejemplos.


AGUA, MADERA Y CALDO
Pensemos en describir las palabras “agua”, “caldo” y “madera” con puntos en un gráfico cartesiano con un eje X y un eje Y. Solo tenemos dos dimensiones, por lo que solo podremos representar dos aspectos del significado de “agua”, “caldo” y “madera”. Decidimos, al azar, que en el eje horizontal representaremos qué tan líquido es algo,
mientras que en el eje vertical representaremos la cualidad de ser algo artificial. Entonces, “agua” y “caldo” tendrán valores altos en el eje horizontal, porque son efectivamente líquidos, mientras que “madera” estará cerca del valor cero. Por otra parte, “agua” y “madera” no son artificiales, y en el eje vertical pondremos esos puntos en el origen, mientras que “caldo” se encontrará más arriba en nuestro
gráfico. Sin embargo, para representar adecuadamente conceptos complejos necesitamos muchas más que dos dimensiones, por lo que los embeddings son, en realidad, puntos en un espacio de N dimensiones que no podemos visualizar en nuestras mentes, pero que una computadora puede procesar.

2019-08-13 11_45_39-Perspectiva_22_ALTA.pdf - Adobe Acrobat Pro.png

Practia Global

Contáctenos

Contáctame
Notas Relacionadas