Réel défi pour les journalistes, les cheap fakes, shallow fakes et autres montages fallacieux et trompeurs se répandent sur Internet et les réseaux sociaux de façon exponentielle. L’intelligence artificielle bouscule les repères que nos sens avaient mis plusieurs millions d’années à fabriquer. Adieu Photoshop et les manipulations classiques d’images fixes, les deepfakes poussent la manipulation un cran plus haut en permettant de fabriquer encore plus d’incertitude dans un monde où l’information se heurte aux croyances, aux rumeurs et aux idées reçues.
Qu’est-ce qu’un deepfake ?
Un deepfake est un enregistrement vidéo ou audio réalisé ou modifié grâce à une intelligence artificielle. Ce terme fait référence non seulement au contenu ainsi créé, mais aussi aux technologies utilisées. Le mot est une abréviation de « deep learning » et « fake », qui peut être traduit par « fausse profondeur ». Le deepfake fait référence à des contenus faux qui sont rendus profondément crédibles grâce aux IA. (Source : Oracle).
En 2019, une équipe de chercheurs de l’université de Stanford, de l’institut Max Planck pour l’informatique, de l’université de Princeton et d’Adobe Research avait conçu un nouvel algorithme qui permettait de retoucher et de modifier simplement une interview filmée. Ce système relançait le débat du « deepfake » et des dangers de manipulations de contenus vidéo diffusés sur Internet et les réseaux sociaux.
À l’instar d’un traitement de texte, n’importe quel créateur de contenu peut désormais modifier une scène facilement, ajouter de nouveaux mots à un discours, supprimer ceux qui ne sont pas souhaités ou réorganiser complètement les éléments en les faisant glisser et en les déposant selon les besoins pour obtenir une composition qui semble presque parfaite pour un œil non averti.
Véritable aubaine pour les éditeurs et producteurs de vidéos, cette avancée technologique suscite néanmoins de vives inquiétudes, d’autant que les gens remettent de plus en plus en question la validité des images et des vidéos en ligne. Leurs auteurs proposaient toutefois quelques lignes directrices pour l’utilisation de ces outils, qui permettraient notamment d’alerter les spectateurs et les interprètes que la vidéo a été manipulée.
In Event of Moon Disaster est une vidéo « deepfake » qui recrée artificiellement le discours écrit, mais jamais ni prononcé ni filmé, de Richard Nixon dans l’éventualité où les astronautes d’Apollo 11 se seraient retrouvé bloqués sur la Lune après leur alunissage. (Source : In Event of Moon Disaster).
Préoccupations d’ordre éthique
Dans l’industrie cinématographique, si un acteur ou un interprète oublie un mot ou s’exprime mal, le monteur peut, via cette application, modifier simplement la transcription et le logiciel assemble le mot correct à partir de divers mots ou parties de mots prononcés ailleurs dans la vidéo. C’est l’équivalent de la réécriture avec la vidéo, un peu comme un écrivain réécrit un mot mal orthographié. L’algorithme nécessite toutefois au moins 40 minutes de vidéo originale, ce qui signifie qu’il ne fonctionne pas encore avec n’importe quelle séquence vidéo. L’application utilise une transcription originale pour extraire les mouvements de la parole de divers morceaux de vidéo et, à l’aide du machine learning (l’apprentissage automatique), les convertir en une vidéo qui semble naturelle au spectateur, synchronisation labiale comprise.
Si les implications sont importantes (post-production de films, traduction de vidéos, création éducative, etc.), à l’ère des fausses vidéos diffusées en masse sur les réseaux numériques, de telles capacités soulèvent d’importantes préoccupations éthiques. On peut craindre en effet qu’une telle technologie soit utilisée à des fins illicites, pour la diffusion de fake news ou pour discréditer une personnalité politique.
Quel avenir pour les deepfakes ?
Concernant les réseaux sociaux, où les faux contenus peuvent se propager très rapidement et sans contrôle, a priori, le laboratoire FAIR de Facebook (Facebook AI Research) a entamé en 2019 un projet de « désidentification » afin d’empêcher, via une Intelligence Artificielle, l’exploitation d’images par des logiciels de reconnaissance faciale qui peuvent générer des deepfakes. Une autre option à l’étude serait de développer une sorte de filigrane qui permettrait d’identifier tout contenu ayant été modifié et de fournir un registre complet des modifications.
Mais la meilleure protection reste que les téléspectateurs doivent demeurer sceptiques et prudents quant aux contenus vidéos qu’ils visionnent en ligne. En outre, le Web regorge déjà d’innombrables autres façons de manipuler des vidéos, lesquelles sont beaucoup plus faciles à exécuter. Le plus urgent est sans nul doute de sensibiliser et d’éduquer le public à la manipulation de vidéos, afin que les gens soient mieux équipés pour remettre en question et évaluer la véracité des contenus artificiels.
Comment détecter un deepfake ?
Cette menace émergente, véritable « cyber-arme la plus puissante de l’histoire » selon l’expression de la société de cyber-surveillance Zemana, peut néanmoins être contrée grâce à la plateforme de détection Deepware. Bien qu’imparfait, cet outil a été conçu afin de détecter les vidéos « deepfakes » ou, tout simplement, tout contenu truqué dans les domaines de la communication audiovisuelle.