Deepfake et cybersécurité
Le deepfake n’est pas qu’un sujet de désinformation politique ou de manipulation médiatique. En entreprise, c’est un amplificateur d’ingénierie sociale qui rend les attaques existantes — fraude au président, vishing, spear phishing — considérablement plus dangereuses.
L’évolution est claire : en 2020, un email de phishing suffisait. En 2024, un appel deepfake confirme l’email. En 2026, une visioconférence avec plusieurs deepfakes est techniquement possible. Chaque nouveau canal rend la vérification humaine plus difficile.
Types de deepfakes utilisés en entreprise
Deepfake vocal (le plus courant)
Le clone vocal est l’arme la plus déployée contre les entreprises. La technologie permet de reproduire la voix d’une personne à partir de quelques secondes d’audio :
- 3-5 secondes suffisent pour un clone basique
- 30 secondes produisent un clone quasi-indiscernable
- Temps réel : certains outils permettent de parler dans un microphone et de faire sortir la voix clonée en direct, avec une latence de moins d’une seconde
Sources d’audio exploitées :
- Messages vocaux LinkedIn ou WhatsApp
- Vidéos YouTube (conférences, interviews)
- Podcasts d’entreprise
- Messages d’accueil téléphonique
- Posts vidéo sur les réseaux sociaux
Deepfake vidéo
Plus complexe mais de plus en plus accessible :
- Face swap : le visage d’une personne est superposé sur un autre corps en temps réel
- Lip sync : les mouvements de lèvres sont synchronisés avec un audio généré
- Avatar complet : la personne entière est générée par IA
Le cas Arup (2024) a montré qu’un appel vidéo avec plusieurs deepfakes — directeur financier et collègues — peut être suffisamment convaincant pour déclencher un virement de 25 millions de dollars.
Deepfake image
Moins dangereux en termes de fraude directe, mais utilisé pour :
- Créer de faux profils LinkedIn pour de l’ingénierie sociale (reconnaissance)
- Fabriquer de faux documents d’identité pour ouvrir des comptes bancaires (blanchiment des fonds volés)
- Générer de faux justificatifs (bulletins de salaire, relevés bancaires) pour des fraudes à la souscription
Cas documentés
Arup — 25 millions de dollars (2024)
Le cas le plus spectaculaire à ce jour. Un employé du bureau de Hong Kong du cabinet d’ingénierie Arup a participé à une visioconférence avec ce qu’il pensait être le directeur financier et plusieurs collègues. Tous étaient des deepfakes. Sur la base de cette visioconférence, il a transféré 200 millions de dollars HK (25,6 millions USD) en 15 transactions.
L’employé avait des doutes initiaux après avoir reçu un email suspect. Mais la visioconférence avec des visages et des voix qu’il reconnaissait l’a convaincu.
Entreprise britannique — 220 000 euros (2019)
Un des premiers cas publics de fraude par deepfake vocal. Le PDG d’une filiale britannique d’un groupe allemand a reçu un appel du “PDG du groupe” lui demandant un virement urgent. Il a reconnu l’accent, les intonations et le rythme de parole de son supérieur. Le transfert a été effectué vers un compte en Hongrie.
Tentative sur Ferrari (2024)
Un cadre de Ferrari a reçu des messages WhatsApp du “PDG” Benedetto Vigna, suivi d’un appel vocal deepfake. L’employé a posé une question personnelle que seul le vrai PDG pouvait connaître — l’attaquant a raccroché. La tentative a échoué grâce à un réflexe de vérification.
Le cas Ferrari montre que la seule défense fiable est la vérification par une question ou un code que l’attaquant ne peut pas connaître.
Pourquoi les deepfakes changent la donne
Avant les deepfakes, la fraude au président reposait uniquement sur l’email. Un employé vigilant pouvait vérifier en rappelant le dirigeant. Avec les deepfakes :
- L’email est confirmé par l’appel : “Je vous appelle suite à l’email que je vous ai envoyé” — la cohérence entre les deux canaux renforce la crédibilité
- La voix est reconnue : le collaborateur reconnaît la voix de son PDG, ce qui court-circuite le doute
- La visioconférence est la preuve ultime : voir le visage de l’interlocuteur élimine les dernières réserves
- Plusieurs interlocuteurs : le cas Arup montre que créer une salle de réunion virtuelle avec 4 deepfakes est désormais possible
La conséquence : “reconnaître la voix” ou “voir la personne” ne suffit plus comme critère de vérification.
Comment protéger votre entreprise
Processus de vérification anti-deepfake
Les mesures classiques de protection contre le BEC doivent être renforcées :
- Mot de passe oral : convenir d’un code secret avec les dirigeants pour valider les demandes sensibles par téléphone. L’attaquant peut cloner la voix mais pas deviner le mot de passe
- Question personnelle : comme dans le cas Ferrari, poser une question dont seul le vrai interlocuteur connaît la réponse
- Callback sur numéro connu : raccrocher et rappeler au numéro enregistré dans le répertoire (pas le numéro affiché, qui peut être spoofé)
- Double canal obligatoire : une demande de virement par email ou téléphone doit être confirmée par un canal interne (chat d’entreprise, validation dans le SI financier)
Réduire l’exposition
Limiter les sources audio/vidéo exploitables par les attaquants :
- Dirigeants : être conscient que chaque vidéo LinkedIn, podcast ou conférence fournit du matériel pour un deepfake
- Messages vocaux : éviter les messages vocaux professionnels qui contiennent la voix du dirigeant dans un contexte identifiable
- Réseaux sociaux : les vidéos postées publiquement sont la source la plus facile d’audio
Ce n’est pas réaliste de ne plus publier de vidéos. Mais il faut que les dirigeants et les employés qui gèrent les virements sachent que la voix du PDG est “clonable”.
Sensibilisation
- Démonstrations : montrer aux employés à quoi ressemble un deepfake vocal. Générer un clone de la voix du dirigeant (avec son accord) et le diffuser en formation. L’effet est immédiat : quand vous entendez votre patron “parler” sans qu’il ait prononcé un mot, le réflexe de vérification se déclenche
- Simulations : intégrer des scénarios deepfake dans les exercices de simulation de phishing
- Règle simple : “si une demande financière est inhabituelle, vérifiez par un moyen que l’IA ne peut pas reproduire” (question secrète, code, rappel)
L’avenir des deepfakes
La technologie va continuer à s’améliorer :
- Les clones vocaux en temps réel sont déjà opérationnels
- Les deepfakes vidéo en temps réel progressent rapidement
- Les modèles multimodaux (texte + voix + vidéo) permettront de générer des personnages complets
- Les outils de détection progressent aussi, mais avec un retard structurel sur les outils de génération
La conséquence pour les entreprises : la confiance ne peut plus reposer sur l’identité perçue (voix, visage). Elle doit reposer sur des processus de vérification formels qui résistent à la technologie.
Questions fréquentes
Qu'est-ce qu'un deepfake ?
Un deepfake est un contenu synthétique créé par intelligence artificielle qui reproduit l'apparence, la voix ou les expressions d'une personne réelle. Le terme combine 'deep learning' (apprentissage profond) et 'fake' (faux). Les deepfakes peuvent prendre la forme d'audio (clone vocal), de vidéo (visage remplacé ou généré) ou d'image.
Un deepfake vocal peut-il vraiment tromper un employé ?
Oui. Les technologies actuelles peuvent cloner une voix à partir de 3 à 5 secondes d'audio. Un message vocal LinkedIn, un extrait de podcast ou de vidéo YouTube suffit. La qualité est suffisante pour tromper des collaborateurs directs qui connaissent la voix du dirigeant. Le cas Arup (2024, 25 millions de dollars) prouve que même des professionnels expérimentés se font piéger.
Combien coûte la création d'un deepfake vocal ?
Presque rien. Des services en ligne permettent de cloner une voix pour quelques dizaines d'euros ou gratuitement. La technologie s'est démocratisée au point que n'importe quel attaquant peut générer un clone vocal convaincant sans expertise technique. La barrière d'entrée n'est plus financière ni technique.
Comment détecter un deepfake vocal ?
À l'oreille, c'est de plus en plus difficile. Les indices : une qualité sonore légèrement différente de l'habituelle, un léger décalage dans les réponses (latence IA), une intonation trop régulière, ou un interlocuteur qui évite les questions inattendues. Mais la détection auditive n'est plus fiable — seuls les processus de vérification systématiques protègent.