Deepfake : définition, dangers et comment le repérer

En bref

Un deepfake est un contenu vidéo, image ou audio truqué par intelligence artificielle pour faire dire ou faire quelque chose de faux à une personne réelle. Utile dans le cinéma pour recréer des acteurs, il est surtout devenu un outil de fraude, d'arnaque et de désinformation. Quelques indices visuels et de bon sens permettent heureusement de les repérer.

Une vidéo virale montre un responsable politique annoncer une décision qu'il n'a jamais prise. Un patron envoie un message vocal à son comptable pour virer 80 000 € en urgence — sauf qu'il n'a rien demandé du tout. Une célébrité apparaît dans une publicité qu'elle n'a jamais tournée. Dans chacun de ces cas, la technologie derrière la manipulation porte le même nom : deepfake. Ce terme, apparu vers 2017, désigne aujourd'hui l'un des défis les plus sérieux posés par l'intelligence artificielle à notre rapport à la réalité.

Qu'est-ce qu'un deepfake ?

Le mot deepfake est une contraction de deux termes anglais : deep learning (apprentissage profond) et fake (faux). Il désigne tout contenu médiatique — vidéo, image fixe ou enregistrement audio — dont les caractéristiques ont été synthétisées ou modifiées par une intelligence artificielle de manière suffisamment convaincante pour tromper un observateur non averti.

L'expression a été popularisée fin 2017 sur la plateforme Reddit, où un utilisateur du même pseudonyme postait des vidéos pornographiques dans lesquelles les visages d'actrices de cinéma avaient été remplacés par des visages de célébrités à leur insu. Le scandale qui en a découlé a mis en lumière une technologie qui, jusqu'alors, relevait surtout de la recherche académique et des effets spéciaux cinématographiques haut de gamme.

Depuis, les deepfakes ne cessent de gagner en réalisme et en accessibilité. Ce qui nécessitait autrefois des clusters de serveurs et des mois de calcul peut aujourd'hui être produit en quelques minutes sur un ordinateur grand public, voire via une application mobile gratuite.

Comment ça marche techniquement ?

La fabrication d'un deepfake repose sur des réseaux de neurones artificiels, et plus précisément sur une architecture appelée Generative Adversarial Network (GAN) ou, plus récemment, sur des modèles de diffusion similaires à ceux qui génèrent des images à partir de texte.

Dans le cas classique d'un GAN, deux réseaux s'affrontent en permanence : un générateur, qui produit de faux contenus, et un discriminateur, qui tente de distinguer le vrai du faux. À force d'itérations, le générateur apprend à produire des résultats de plus en plus crédibles. Pour créer un deepfake vidéo convaincant d'une personne, il faut entraîner ce réseau sur un large corpus d'images ou de séquences la représentant sous différents angles, différentes lumières et différentes expressions. Les célébrités et les responsables politiques, qui disposent de milliers d'heures de vidéos publiques, sont donc particulièrement vulnérables.

Pour les deepfakes audio, le principe est identique : un modèle analyse la voix d'une cible (tonalité, débit, intonations caractéristiques) puis peut générer n'importe quel texte avec cette voix synthétique. Quelques dizaines de secondes d'enregistrement suffisent désormais à certains outils pour cloner une voix de façon convaincante.

Les techniques de face-swapping (échange de visage en temps réel), de lip-sync (synchronisation labiale sur un discours fabriqué) et de reenactment (transposition des mouvements d'un acteur sur un autre visage) constituent les trois grandes familles de manipulation vidéo deepfake que l'on rencontre dans la pratique.

Les usages : du cinéma aux arnaques

Il serait inexact de présenter le deepfake comme intrinsèquement malveillant. La technologie sous-jacente a d'abord servi des usages légitimes, et continue de le faire.

Dans le cinéma et les médias, elle permet de rajeunir des acteurs, de redonner vie numériquement à des comédiens décédés (avec l'accord des ayants droit), de doubler en voix synchronisée des contenus dans d'autres langues, ou encore de créer des effets spéciaux à moindre coût. Des productions comme The Mandalorian ont utilisé ces techniques pour recréer le visage de Mark Hamill, et plusieurs studios investissent massivement dans ces outils.

Dans le domaine de l'accessibilité, certaines applications utilisent la synthèse vocale deepfake pour restituer la parole à des personnes l'ayant perdue suite à une maladie, à condition d'avoir enregistré suffisamment de leur voix auparavant.

Mais ces usages bénins sont largement éclipsés par les dérives. Les chercheurs en cybersécurité recensent plusieurs catégories d'abus :

Pour aller plus loin sur les effets de l'IA sur nos sociétés, lire notre dossier sur IA et emploi.

Les dangers : au-delà de la manipulation évidente

Le risque le plus immédiat est celui de la manipulation de l'opinion. Une vidéo truquée publiée quelques heures avant un scrutin électoral peut produire des dommages irréversibles, même si un démenti est publié le lendemain : le mensonge circule toujours plus vite que sa réfutation.

Sur le plan individuel, les deepfakes peuvent causer des préjudices psychologiques et professionnels graves. Une personne dont le visage est utilisé dans un contenu sexuel non consenti ou dans une vidéo la montrant en train de commettre un acte délictueux vit une forme d'atteinte à son identité difficile à réparer, même après la suppression du contenu.

Les escroqueries vocales constituent une menace financière croissante pour les entreprises. En 2019, une société britannique a versé 220 000 euros à des escrocs après avoir reçu un appel téléphonique imitant la voix de son directeur général, une des premières fraudes documentées utilisant un clone vocal par IA. Ce type d'attaque s'est depuis multiplié à l'échelle mondiale.

Il existe aussi un danger plus diffus : l'érosion de la confiance dans les documents authentiques. Si n'importe quel contenu peut être fabriqué, les vrais enregistrements compromettants peuvent être niés par leurs auteurs comme étant de simples deepfakes. C'est ce que certains chercheurs appellent le "dividende du menteur" — la technologie offre une excuse commode à ceux qui veulent nier l'évidence.

Ces mécanismes de manipulation rejoignent d'autres vecteurs de désinformation analysés dans notre article sur détecter les fake news.

Comment repérer un deepfake ?

À mesure que les deepfakes gagnent en qualité, leur détection à l'œil nu devient plus difficile. Pourtant, plusieurs indices restent utiles, surtout pour les productions de qualité moyenne qui constituent l'essentiel des contenus malveillants en circulation.

Indice visuel ou contextuel Ce qu'il révèle
Clignements des yeux anormaux (trop rares ou mécaniques) Les premiers modèles avaient du mal à synthétiser les clignements naturels
Contour du visage flou ou qui tremble Artefacts de fusion entre le visage synthétique et la vidéo originale
Désynchronisation entre lèvres et son Imperfection du rendu lip-sync, surtout perceptible au ralenti
Éclairage incohérent (ombres qui ne correspondent pas) Le réseau n'a pas correctement appris les contraintes physiques de la lumière
Dents ou cheveux flous, peu détaillés Zones difficiles à synthétiser avec précision pour les GAN classiques
Bijoux, boucles d'oreilles ou lunettes déformés Les objets à géométrie fine résistent mal à la fusion de visages
Source unique, non vérifiable, diffusée dans l'urgence Stratégie classique pour limiter le temps de vérification

Au-delà de ces indices techniques, le contexte est souvent le meilleur révélateur. Avant de partager une vidéo choquante d'une personnalité publique, quelques questions s'imposent : d'autres médias sérieux relaient-ils l'information ? Le comportement décrit est-il cohérent avec ce que l'on sait de la personne ? La vidéo provient-elle d'une source vérifiable et identifiée ?

Se protéger et vérifier

Face à la sophistication croissante des deepfakes, quelques réflexes permettent de limiter les risques, tant pour les particuliers que pour les organisations.

Recouper les sources reste la première ligne de défense. Une information importante diffusée uniquement via une vidéo non sourcée mérite d'être vérifiée auprès de médias de référence avant d'être crue ou partagée. Les agences de fact-checking comme AFP Factuel, Libération CheckNews ou Le Monde Décodeurs analysent régulièrement des contenus suspectés d'être falsifiés.

Du côté des outils de détection automatique, plusieurs solutions existent désormais. Microsoft a développé le Video Authenticator, qui analyse les trames d'une vidéo pour détecter des artefacts de fusion. Des plateformes comme Sensity AI ou Reality Defender proposent des services de détection professionnelle. Des extensions de navigateur permettent également de soumettre des images à une recherche inversée pour retrouver leur origine. Aucun outil n'est infaillible, mais leur combinaison augmente significativement les chances de détecter une manipulation.

Pour se protéger personnellement d'un usage abusif de son image ou de sa voix, la limitation des données disponibles en ligne est une précaution utile : réduire le nombre de photos et de vidéos accessibles publiquement diminue le matériau disponible pour un entraînement malveillant. Certains chercheurs ont développé des outils comme Fawkes (université de Chicago) qui modifient subtilement les photos pour les rendre inexploitables par des algorithmes de reconnaissance, sans que la modification soit visible à l'œil humain.

Les entreprises, quant à elles, ont intérêt à mettre en place des protocoles de vérification pour les ordres financiers transmis par voie téléphonique ou vidéo, notamment en instaurant des mots de passe convenus à l'avance ou des rappels systématiques sur des lignes officielles.

Sur le plan légal, la France a renforcé son arsenal. La loi contre les manipulations de l'information (2018) et la jurisprudence en matière de droit à l'image offrent des recours, bien que leur application reste complexe face à des contenus hébergés à l'étranger. L'Union européenne travaille à encadrer plus strictement ces pratiques dans le cadre de l'IA Act.

Ces enjeux d'influence numérique touchent particulièrement les jeunes générations, largement exposées à des contenus non vérifiés sur les réseaux sociaux.

Questions fréquentes

Faire ou diffuser un deepfake, est-ce légal ?
Tout dépend du contenu et de l'intention. Créer un deepfake à des fins artistiques ou parodiques, en signalant clairement qu'il s'agit d'un contenu fabriqué, est généralement toléré. En revanche, utiliser un deepfake pour diffamer, escroquer, harceler ou produire des contenus à caractère sexuel sans le consentement de la personne concernée est punissable en France, notamment au titre de l'atteinte à la vie privée, de l'usurpation d'identité numérique ou de la fraude. Les sanctions peuvent aller jusqu'à plusieurs années d'emprisonnement et des amendes substantielles.

Comment reconnaître un deepfake de qualité médiocre à qualité moyenne ?
Les signes les plus courants sont : une zone floue autour du visage ou du cou, des incohérences dans l'éclairage, un clignement des yeux mécanique ou absent, une désynchronisation entre les lèvres et le son, et des détails flous sur les dents, les cheveux ou les accessoires. Regarder la vidéo au ralenti ou en plein écran amplifie ces défauts. Pour les audios, une légère réverbération artificielle et une prosodie un peu trop régulière sont des indicateurs.

Peut-on se protéger contre l'usage malveillant de son image ?
Totalement, non. Partiellement, oui. Limiter ses publications de photos et vidéos en ligne réduit le matériau disponible. Des outils comme Fawkes permettent de "perturber" les images avant publication pour les rendre inutilisables par des algorithmes d'entraînement. En cas de deepfake malveillant déjà diffusé, signaler le contenu aux plateformes et déposer plainte auprès des autorités compétentes (en France, la CNIL et la police nationale disposent de cellules spécialisées) sont les démarches à engager.

À quoi servent vraiment les deepfakes aujourd'hui ?
Les usages légitimes couvrent le cinéma (rajeunissement d'acteurs, effets spéciaux), la traduction audiovisuelle avec synchronisation labiale, la reconstitution historique et certaines applications médicales (restitution de la voix). Mais en volume, les usages malveillants — pornographie non consentie, désinformation, fraude financière — représentent la part écrasante des deepfakes produits et diffusés à travers le monde, ce qui justifie la vigilance croissante des législateurs et des chercheurs.