Los investigadores de la UC Berkeley y la USC están compitiendo para crear nuevas técnicas para detectar los vídeos Deep Fake de los líderes políticos. Este vídeo muestra dos ejemplos de errores en el cambio de cara y la sincronización de labios, que fueron producidos por científicos informáticos de la USC con fines de investigación, y una nueva técnica que el equipo ha desarrollado para detectarlos.
(Video de UC Berkeley por Roxanne Makasdjian y Stephen McNally)
Después de ver horas de vídeo del ex presidente Barack Obama pronunciando su discurso semanal, Shruti Agarwal comenzó a notar algunas peculiaridades sobre la forma en que habla Obama. «Cada vez que dice ‘Hola a todos’, mueve su cabeza hacia la izquierda o hacia la derecha, y luego frunce los labios», dijo Agarwal, un estudiante graduado en ciencias de la computación en la Universidad de California en Berkeley.
Agarwal y su asesor de tesis Hany Farid, profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y en la Escuela de Información de la UC Berkeley, están compitiendo para desarrollar herramientas forenses digitales que pueden desenmascarar Fakes Videos hiperrealistas generados por AI de personas haciendo o diciendo cosas que nunca hicieron o dijeron.
Los patrones en el discurso real de Obama ayudaron a descubrir los fallos en los Vídeos Deep Fake
«Me di cuenta de que hay una cosa común entre todos estos Deep Fakes, y es que tienden a cambiar la forma en que una persona habla», dijo Agarwal.
La perspicacia de Agarwal la llevó a ella y a Farid a crear la última arma en la guerra contra los Fakes: un nuevo enfoque forense que puede usar las características sutiles de cómo habla una persona, como las distintas inclinaciones de la cabeza de Obama y los labios, para reconocer si un nuevo video de Ese individuo es real o falso.
Su técnica, que Agarwal presentó esta semana en la conferencia Computer Vision and Pattern Recognition en Long Beach (CVPR2019) California, podría usarse para ayudar a periodistas, responsables políticos y al público a estar un paso por delante de videos falsos de líderes políticos o económicos que podrían utilizarse para optar por una elección, desestabilizar un mercado financiero o incluso incitar a disturbios civiles y violencia.
“Imagina un mundo ahora, donde no solo las noticias que lees pueden o no ser reales, es el mundo en el que hemos estado viviendo durante los últimos dos años, desde las elecciones de 2016, sino donde aparecen las imágenes y los videos que pueden o no ser reales «, dijo Farid, quien comienza su permanencia en UC Berkeley el 1 de julio. «No se trata solo de estos últimos avances en la creación de imágenes y videos falsos. Es la inyección de estas técnicas en un ecosistema que ya promueve noticias falsas, noticias sensacionales y teorías de conspiración «.
La nueva técnica funciona porque las tres técnicas más comunes de deep fake, conocidas como «lip-sync», «face swap» y «puppet-master», involucran la combinación de audio y video de una fuente con una imagen de otra fuente, creando una desconexión que puede ser descubierta por un espectador entusiasta o un modelo de computadora sofisticado.
Usando la técnica de «cambio de rostro», por ejemplo, uno podría crear una imitación profunda de Donald Trump superponiendo la cara de Trump en un video de Alec Baldwin haciendo una personificación de Trump, de modo que es casi como si Baldwin estuviera usando una máscara de Trump.
Pero las expresiones faciales de Baldwin todavía se mostrarán a través de la máscara, dijo Agarwal. «La nueva imagen que se creará tendrá las expresiones y el comportamiento facial de Alec Baldwin, pero la cara de Trump», explicó.
Del mismo modo, en un deep fake de «sincronización de labios», los algoritmos de Inteligencia Artificial toman un vídeo existente de una persona hablando y alteran los movimientos de los labios en el vídeo para que coincidan con los de un nuevo audio, donde el audio puede ser un discurso más antiguo tomado fuera de contexto, un imitador que habla, o habla sintetizada. El año pasado, el actor y director Jordan Peele usó esta técnica para crear un video viral de Obama diciendo cosas inflamatorias sobre el presidente Trump.
Pero en estos vídeos, solo se cambian los movimientos de los labios, por lo que las expresiones en el resto de la cara pueden no coincidir con las palabras que se pronuncian.
Para probar la idea, Agarwal y Farid recopilaron secuencias de vídeo de cinco figuras políticas importantes (Hillary Clinton, Barack Obama, Bernie Sanders, Donald Trump y Elizabeth Warren) con tics como cejas levantadas, arrugas de la nariz, gotas de la mandíbula y labios presionados. y las analizaron en el kit de herramientas OpenFace2 de análisis de comportamiento facial de código abierto.
Diferentes expresiones faciales entre los vídeos Deep Fake y los reales
Luego utilizaron los resultados para crear lo que el equipo llama modelos «biométricos suaves», que correlacionan las expresiones faciales y los movimientos de la cabeza de cada líder político. Descubrieron que cada líder tenía una forma distinta de hablar y, cuando usaban estos modelos para analizar videos reales y falsos creados por sus colaboradores en la Universidad del Sur de California, descubrieron que los modelos podían distinguir con precisión lo real de lo falso entre 92 y 96 Porcentaje del tiempo, según el líder y la duración del video.

Deep Fake de Obama detectado con OpenFace
Foto: El software de seguimiento OpenFace analiza un video real del presidente Obama a la izquierda y un «sincero de labios» a la derecha. (Foto de UC Berkeley por Stephen McNally)
“La idea básica es que podemos construir estos modelos biométricos suaves de varios líderes mundiales, como los candidatos presidenciales de 2020, y luego podemos analizarlos e intentar determinar si creemos que son reales o no. No «, dijo Farid.
A diferencia de algunas técnicas forenses digitales, que identifican falsificaciones detectando artefactos de imagen dejados durante el proceso de fabricación, el nuevo método aún puede reconocer falsificaciones que se han modificado a través del procesamiento digital simple como cambio de tamaño o compresión.
Pero no es infalible. La técnica funciona bien cuando se aplica a figuras políticas que dan discursos y discursos formales porque tienden a atenerse a comportamientos bien ensayados en estos entornos. Pero puede que no funcione tan bien para los videos de estas personas en otros entornos: por ejemplo, Obama puede no hacer su mismo gesto característico con la cabeza cuando saluda a sus amigos.
Los creadores de vídeos Deep Fake también podrían convertirse en expertos en estos patrones de habla y aprender a incorporarlos en sus vídeos de líderes mundiales, dijeron los investigadores.
Agarwal dice que espera que el nuevo enfoque ayude a ganar un poco de tiempo en la carrera en constante evolución para detectarlos: «Solo estamos tratando de ganar un poco de ventaja en este juego del gato y el ratón para detectar y crear nuevos Deep Fakes», dijo Agarwal.
Fuente: Kara Manke en News.berkeley.edu