Tu jefe te contacta por Skype. Usted ve su cara y escucha su voz, pidiéndole que transfiera una cantidad considerable de dinero a una empresa de la que nunca haya oído hablar. ¿Pedirías una confirmación por escrito de sus órdenes? ¿O simplemente seguirías sus instrucciones?

Ciertamente me sorprendería tal solicitud, pero, de nuevo, esto no es una transacción normal para mí y mi jefe. Pero, dada la tasa de éxito del fraude de  CEO  (que fue mucho menos convincente), los actores de amenazas solo necesitarían encontrar a la persona adecuada con quien contactar para poder engañar con éxito a los empleados para que envíen el dinero.

Imagine la tasa de éxito del fraude de CEO donde los estafadores podrían replicar la cara y la voz de su jefe en una llamada de Skype. Usando las técnicas de Deepfake, pueden alcanzar ese nivel en un futuro no muy lejano.

¿Qué es Deepfake?

La palabra «Deepfake» se creó al combinar «aprendizaje profundo» y «falso» juntos. Es un método para crear imágenes humanas basadas en inteligencia artificial (IA). En pocas palabras, los creadores alimentan datos de computadora que consisten en muchas expresiones faciales de una persona y encuentran a alguien que puede imitar la voz de esa persona. El algoritmo AI puede entonces coincidir con la boca y la cara para sincronizarse con las palabras habladas. Todo esto resultaría en una «sincronización de labios» casi perfecta con la cara y la voz correspondientes.

Comparado con las antiguas técnicas de Photoshop para crear pruebas falsas, esto se calificaría como «videoshop 3.0».

¿De dónde vino?

La primera conmoción sobre esta técnica surgió cuando un usuario de Reddit, por el nombre de DeepFakes, publicó videos explícitos de celebridades que parecían realistas. Él generó estos videos al reemplazar los rostros de los actores pornográficos originales con los de las celebridades. Al usar el aprendizaje profundo, estos «intercambios de caras» eran casi imposibles de detectar.

DeepFakes publicó el código que usó para crear estos videos en GitHub y pronto, mucha gente estaba aprendiendo a crear sus propios videos, encontrando nuevos casos de uso a medida que avanzaban. Los foros sobre Deepfakes fueron inmensamente populares, los cuales fueron inmediatamente capitalizados por los coinminers . Y en algún momento, una versión fácil de usar de la tecnología Deepfake fue incluida con un cryptominer .

La tecnología

Los efectos de Deepfake se logran usando una tecnología de aprendizaje profundo llamada autoencoder. La entrada se comprime, o se codifica, en una pequeña representación. Se pueden usar para reproducir la entrada original para que coincidan con las imágenes anteriores en el mismo contexto (aquí, es el video). Sin embargo, los creadores necesitan suficientes datos relevantes para lograr esto. Para crear una imagen de Deepfake, el productor reproduce la cara B mientras usa la cara A como entrada. Entonces, mientras el propietario de la cara A está hablando en el lado de la persona que llama en la llamada de Skype, el receptor ve la cara B haciendo los movimientos. El receptor observará la llamada como si B fuera quien hablara.

Cuantas más imágenes de la persona en cuestión podamos alimentar el algoritmo, más realistas serán las expresiones faciales de la imitación.

Dado que ya existe una IA que puede entrenarse para imitar una voz después de escucharla durante aproximadamente un minuto, no parece que pasará mucho tiempo antes de que el imitador de voz pueda ser reemplazado por otra rutina que repita las oraciones de la persona que llama. una imitación razonable de la voz que el receptor asocia con la cara en la pantalla.

Casos de abuso

Como se mencionó anteriormente, la tecnología se utilizó por primera vez para reemplazar a los actores de las películas pornográficas con celebridades. También hemos visto algunos ejemplos de cómo esta tecnología podría usarse para crear » noticias falsas y profundas «.

Entonces, ¿cuánto tiempo les tomará a los estafadores hacer el truco para crear engaños elaborados , material promocional falso y llevar a cabo fraudes realistas?

Los engaños y otras noticias falsas son lo suficientemente dañinos como lo son en el estado actual de las cosas. Por naturaleza, las personas se inclinan a creer lo que ven. Si pueden verlo «en video» con sus propios ojos, ¿por qué lo dudarían?

Es posible que la historia sobre la transmisión de «La Guerra de los Mundos» y el pánico resultante sean divertidos, pero estoy bastante seguro de que más de un millón de personas que fueron golpeadas por el pánico no estarían de acuerdo con usted. Y eso fue sólo una transmisión de radio. Imagine algo similar con “material de archivo en vivo” y utilizando las caras y voces de sus presentadores de noticias favoritos (o, mejor dicho, sus imitaciones convincentes). Imagínese si los actores de la amenaza pudieran simular un ataque terrorista o disparos en masa. Hay muchas más posibilidades nefastas.

Contramedidas

La Agencia de Proyectos de Investigación Avanzada de la Defensa (DARPA, por sus siglas en inglés) es consciente de los peligros que puede plantear Deepfakes.

“Si bien muchas de las manipulaciones son benignas, se realizan por diversión o por valor artístico, otras son para fines de confrontación, como propaganda o campañas de desinformación.

Esta manipulación de los medios visuales está habilitada por la disponibilidad a gran escala de sofisticadas aplicaciones de edición de imágenes y video, así como por los algoritmos de manipulación automatizados que permiten la edición en formas que son muy difíciles de detectar ya sea con el análisis de imágenes actual y las herramientas forenses de medios visuales. . Las herramientas forenses utilizadas hoy en día carecen de robustez y escalabilidad, y abordan solo algunos aspectos de la autenticación de medios; no existe una plataforma de extremo a extremo para realizar un análisis forense completo y automatizado «.

DARPA ha lanzado el programa MediFor para estimular a los investigadores a desarrollar tecnología que pueda detectar manipulaciones e incluso proporcionar información sobre cómo se realizaron las manipulaciones.

Una de las señales que los investigadores ahora buscan cuando intentan descubrir un video documentado es la frecuencia con la que la persona del video parpadea. Cuando una persona normal parpadea cada pocos segundos, una imitación de Deepfake podría no hacerlo, o no lo suficiente como para ser convincente. Una de las razones de este efecto es que las imágenes de personas con los ojos cerrados no se publican mucho, por lo que tendrían que usar secuencias de video reales como entradapara obtener la frecuencia de parpadeo correcta.

A medida que avance la tecnología, indudablemente veremos mejoras tanto en el lado imitativo como en el defensivo. Lo que ya parece evidente es que tomará más que un ojo entrenado para reconocer los videos de Deepfake; necesitaremos algoritmos de aprendizaje automático para adaptarse.

Anti-video fraude

Con la excepcional velocidad de los desarrollos en el campo de Deepfakes, parece probable que vea un engaño o estafa utilizando este método en un futuro próximo. Tal vez incluso comencemos a utilizar software especializado contra el fraude de video en algún momento, de la misma manera en que nos hemos acostumbrado al uso de la protección antispam y antimalware.

Manténgase seguro y esté atento!