Suscríbete al newsletter The NewNow

Y te mantendremos al tanto de los últimos artículos y noticias

Los campos marcados con * son obligatorios

La computación afectiva mejora la medición de emociones con AI

La Computación Afectiva, basada en los modelos personalizados de aprendizaje automático capturan sutiles variaciones en las expresiones faciales para una mejor medición de la emoción. Así lo han demostrado investigadores de MIT Media Lab que han desarrollado un modelo de aprendizaje automático que lleva las computadoras un paso más cerca de interpretar nuestras emociones de forma tan natural como los humanos.

En el creciente campo de la “informática afectiva”, se están desarrollando robots y computadoras para analizar las expresiones faciales, interpretar nuestras emociones y responder en consecuencia. Las aplicaciones incluyen, por ejemplo, monitorear la salud y el bienestar de una persona, evaluar el interés de los estudiantes en las aulas, ayudar a diagnosticar los signos de ciertas enfermedades y desarrollar compañeros útiles de robots.

Un desafío, sin embargo, es que las personas expresan emociones de manera muy diferente, dependiendo de muchos factores.

Las diferencias generales se pueden ver entre culturas, géneros y grupos de edad. Pero otras diferencias son aún más precisas: la hora del día, cuánto durmió o incluso su nivel de familiaridad con un compañero de conversación, conduce a variaciones sutiles en la manera en que expresa, por ejemplo, la felicidad o la tristeza en un momento dado. Los cerebros humanos captan instintivamente estas desviaciones, pero las máquinas entran en conflicto. Las técnicas de aprendizaje profundo se desarrollaron en los últimos años para ayudar a detectar las sutilezas, pero aún no son tan precisas ni adaptables a las diferentes poblaciones como podrían ser.

Los investigadores de Media Lab han desarrollado un modelo de aprendizaje automático que supera a los sistemas tradicionales en la captura de estas pequeñas variaciones en la expresión facial, para medir mejor el estado de ánimo mientras entrena en miles de imágenes de rostros. Además, al utilizar un poco más de datos de entrenamiento, el modelo se puede adaptar a un grupo de personas completamente nuevo, con la misma eficacia. El objetivo es mejorar las tecnologías de computación afectiva existentes.
“Esta es una manera discreta de monitorear nuestros estados de ánimo”, dice Oggi Rudovic, un investigador de Media Lab y coautor de un artículo que describe el modelo, que se presentó en la Conferencia sobre Aprendizaje Automático y Minería de Datos.

 “Si quieres robots con inteligencia social, tienes que hacerlos de forma inteligente y natural para responder a nuestros estados de ánimo y emociones, más como a los humanos”.

Los coautores del artículo son: el primer autor Michael Feffer, estudiante de pregrado en ingeniería eléctrica y ciencias de la computación; y Rosalind Picard, profesora de artes y ciencias de los medios y directora fundadora del grupo de investigación Affective Computing.

Expertos personalizados

Los modelos tradicionales de computación afectiva usan un concepto de “talla única para todos”. Se entrenan en un conjunto de imágenes que representan diversas expresiones faciales, optimizan las características, como la forma en que un labio se riza al sonreír, y el mapeo de las funciones generales optimizadas en un conjunto completo de imágenes nuevas. Los investigadores, en cambio, combinaron una técnica, llamada “mezcla de expertos” (MoE), con técnicas de personalización del modelo, que ayudaron a extraer datos más finos de expresión facial de individuos. Esta es la primera vez que estas dos técnicas se combinan para la computación afectiva, dice Rudovic.

En los ME, una serie de modelos de redes neuronales, llamados “expertos”, están capacitados para especializarse en una tarea de procesamiento separada y producir una salida. Los investigadores también incorporaron una “red de puertas”, que calcula las probabilidades de que los expertos puedan detectar mejor los estados de ánimo de los sujetos invisibles. “Básicamente, la red puede discernir entre individuos y decir: ‘Este es el experto adecuado para la imagen dada'”, dice Feffer.

Fig. 1: La arquitectura del enfoque propuesto. La entrada es un video de un sujeto y los resultados son sus niveles de valencia y excitación estimados. Primero aplicamos R-CNN más rápido para extraer la región de la cara de cada fotograma de imagen sin procesar.
Las caras extraídas se pasaron a través de un ResNet-50, ajustado en la fuente datos de los sujetos. Las características profundas obtenidas se utilizaron como entrada a nuestra personalizada red de expertos (PEN) para la estimación automática de la valencia y la excitación.
Esto también contiene una “red de puerta” (CN) que asigna diferentes pesos a cada uno experto en el PEN durante la inferencia de nuevas imágenes de prueba. (Imagen extraída del PDF disponible en el link de descarga inferior).©Michael Feffer, Ognjen (Oggi) Rudovic, and Rosalind W. Picard

 

Para su modelo, los investigadores personalizaron los ME alineando a cada experto con una de las 18 grabaciones de video individuales en la base de datos RECOLA, una base de datos pública de personas que conversan en una plataforma de video chat diseñada para aplicaciones de informática afectiva. Entrenaron el modelo usando nueve sujetos y los evaluaron en los otros nueve, con todos los videos divididos en cuadros individuales. Cada experto y la red de puertas registraron las expresiones faciales de cada individuo, con la ayuda de una red residual (“ResNet”), una red neuronal utilizada para la clasificación de objetos.

Al hacerlo, el modelo calificó cada cuadro en función del nivel de valencia (agradable o desagradable) y de la excitación (excitación), que generalmente se usa para codificar diferentes estados emocionales.

Separadamente, seis expertos humanos etiquetaron cada cuadro para valencia y excitación, basado en una escala de -1 (niveles bajos) a 1 (niveles altos), que el modelo también usó para entrenar.
Posteriormente, los investigadores realizaron más personalizaciones del modelo, donde alimentaron los datos del modelo entrenado de algunos cuadros de los videos restantes de sujetos, y luego probaron el modelo en todos los marcos invisibles de esos videos. Los resultados mostraron que, con solo 5 a 10 por ciento de los datos de la nueva población, el modelo superó a los modelos tradicionales por un amplio margen, lo que significa que anotó valencia y excitación en imágenes invisibles mucho más cercanas a las interpretaciones de los expertos humanos.

Esto muestra el potencial de los modelos para adaptarse de población a población, o de individuo a individuo, con muy pocos datos, dice Rudovic. “Esa es la clave” —dice— “Cuando tienes una nueva población, tienes que tener una forma de dar cuenta de la distribución cambiante de datos [variaciones sutiles faciales].

Imagina un modelo establecido para analizar expresiones faciales en una cultura que necesita ser adaptada para una cultura diferente.

Para este cambio de datos, esos modelos tendrán un rendimiento inferior. Pero si solo muestras un poco de una nueva cultura para adaptar nuestro modelo, estos modelos pueden hacerlo mucho mejor, especialmente a nivel individual. Aquí es donde la importancia de la personalización del modelo puede ser mejor visto.”

Los datos actualmente disponibles para dicha investigación de computación afectiva no son muy diversos en los colores de la piel, por lo que los datos de capacitación de los investigadores fueron limitados. Pero cuando tales datos estén disponibles, el modelo puede ser entrenado para su uso en poblaciones más diversas. El próximo paso, dice Feffer, es entrenar al modelo en “un conjunto de datos mucho más grande con culturas más diversas”.

Computación Afectiva: Mejores interacciones entre la máquina y el ser humano

Otro objetivo es capacitar al modelo para que las computadoras y los robots aprendan automáticamente a partir de pequeñas cantidades de datos cambiantes para detectar de forma más natural cómo nos sentimos y atender mejor las necesidades humanas, afirman los investigadores.

Podría, por ejemplo, ejecutarse en el fondo de una computadora o dispositivo móvil para rastrear las conversaciones de video de un usuario y aprender cambios sutiles en la expresión facial en diferentes contextos.

“Puede hacer que cosas como aplicaciones de teléfonos inteligentes o sitios web sean capaces de decir cómo se siente la gente y recomendar maneras de lidiar con el estrés o el dolor, y otras cosas que están impactando negativamente en sus vidas”, dice Feffer. Esto también podría ser útil para controlar, por ejemplo, la depresión o la demencia, ya que las expresiones faciales de las personas tienden a cambiar sutilmente debido a esas condiciones. “Al ser capaces de monitorear pasivamente nuestras expresiones faciales ” —dice Rudovic— “con el tiempo podríamos personalizar estos modelos para los usuarios y controlar la cantidad de desviaciones que tienen a diario, desviándonos del nivel promedio de expresividad facial, y usarlo para indicadores de bienestar y salud “.

Una aplicación prometedora, dice Rudovic, son las interacciones humano-robóticas, como la robótica personal o los robots utilizados con fines educativos, donde los robots deben adaptarse para evaluar los estados emocionales de muchas personas diferentes.

Una versión, por ejemplo, se ha utilizado para ayudar a los robots a interpretar mejor los estados de ánimo de los niños con autismo.

Roddy Cowie, profesor emérito de psicología de la Queen’s University de Belfast y experto en informática afectiva, dice que el trabajo del MIT “ilustra dónde estamos realmente” en la materia. “Estamos avanzando hacia sistemas que pueden ubicarse aproximadamente, a partir de imágenes de rostros de personas, donde se encuentran en escalas de muy positivas a muy negativas, y muy activas a muy pasivas” —dice— “Parece intuitivo que los signos emocionales que una persona da no son lo mismo que los signos que otra da, por lo que tiene mucho sentido que el reconocimiento de emociones funcione mejor cuando se personaliza. El método de personalización refleja otro punto intrigante, que es más eficaz para entrenar a múltiples “expertos” y agregar sus juicios, que para entrenar a un solo súper experto. Los dos juntos crean un paquete satisfactorio “.

Paper original: A Mixture of Personalized Experts for Human Affect Estimation (PDF)

Fuente: MIT News