Qu'est-ce qu'un deepfake ?

Un deepfake est un contenu synthétique créé par intelligence artificielle qui reproduit l'apparence, la voix ou les expressions d'une personne réelle. Le terme combine 'deep learning' (apprentissage profond) et 'fake' (faux). Les deepfakes peuvent prendre la forme d'audio (clone vocal), de vidéo (visage remplacé ou généré) ou d'image.

Un deepfake vocal peut-il vraiment tromper un employé ?

Oui. Les technologies actuelles peuvent cloner une voix à partir de 3 à 5 secondes d'audio. Un message vocal LinkedIn, un extrait de podcast ou de vidéo YouTube suffit. La qualité est suffisante pour tromper des collaborateurs directs qui connaissent la voix du dirigeant. Le cas Arup (2024, 25 millions de dollars) prouve que même des professionnels expérimentés se font piéger.

Combien coûte la création d'un deepfake vocal ?

Presque rien. Des services en ligne permettent de cloner une voix pour quelques dizaines d'euros ou gratuitement. La technologie s'est démocratisée au point que n'importe quel attaquant peut générer un clone vocal convaincant sans expertise technique. La barrière d'entrée n'est plus financière ni technique.

Comment détecter un deepfake vocal ?

À l'oreille, c'est de plus en plus difficile. Les indices : une qualité sonore légèrement différente de l'habituelle, un léger décalage dans les réponses (latence IA), une intonation trop régulière, ou un interlocuteur qui évite les questions inattendues. Mais la détection auditive n'est plus fiable — seuls les processus de vérification systématiques protègent.

Deepfake : définition, risques pour les entreprises et protection

Deepfake et cybersécurité

Le deepfake n’est pas qu’un sujet de désinformation politique ou de manipulation médiatique. En entreprise, c’est un amplificateur d’ingénierie sociale qui rend les attaques existantes — fraude au président, vishing, spear phishing — considérablement plus dangereuses.

L’évolution est claire : en 2020, un email de phishing suffisait. En 2024, un appel deepfake confirme l’email. En 2026, une visioconférence avec plusieurs deepfakes est techniquement possible. Chaque nouveau canal rend la vérification humaine plus difficile.

Types de deepfakes utilisés en entreprise

Deepfake vocal (le plus courant)

Le clone vocal est l’arme la plus déployée contre les entreprises. La technologie permet de reproduire la voix d’une personne à partir de quelques secondes d’audio :

3-5 secondes suffisent pour un clone basique
30 secondes produisent un clone quasi-indiscernable
Temps réel : certains outils permettent de parler dans un microphone et de faire sortir la voix clonée en direct, avec une latence de moins d’une seconde

Sources d’audio exploitées :

Messages vocaux LinkedIn ou WhatsApp
Vidéos YouTube (conférences, interviews)
Podcasts d’entreprise
Messages d’accueil téléphonique
Posts vidéo sur les réseaux sociaux

Deepfake vidéo

Plus complexe mais de plus en plus accessible :

Face swap : le visage d’une personne est superposé sur un autre corps en temps réel
Lip sync : les mouvements de lèvres sont synchronisés avec un audio généré
Avatar complet : la personne entière est générée par IA

Le cas Arup (2024) a montré qu’un appel vidéo avec plusieurs deepfakes — directeur financier et collègues — peut être suffisamment convaincant pour déclencher un virement de 25 millions de dollars.

Deepfake image

Moins dangereux en termes de fraude directe, mais utilisé pour :

Créer de faux profils LinkedIn pour de l’ingénierie sociale (reconnaissance)
Fabriquer de faux documents d’identité pour ouvrir des comptes bancaires (blanchiment des fonds volés)
Générer de faux justificatifs (bulletins de salaire, relevés bancaires) pour des fraudes à la souscription

Cas documentés

Arup — 25 millions de dollars (2024)

Le cas le plus spectaculaire à ce jour. Un employé du bureau de Hong Kong du cabinet d’ingénierie Arup a participé à une visioconférence avec ce qu’il pensait être le directeur financier et plusieurs collègues. Tous étaient des deepfakes. Sur la base de cette visioconférence, il a transféré 200 millions de dollars HK (25,6 millions USD) en 15 transactions.

L’employé avait des doutes initiaux après avoir reçu un email suspect. Mais la visioconférence avec des visages et des voix qu’il reconnaissait l’a convaincu.

Entreprise britannique — 220 000 euros (2019)

Un des premiers cas publics de fraude par deepfake vocal. Le PDG d’une filiale britannique d’un groupe allemand a reçu un appel du “PDG du groupe” lui demandant un virement urgent. Il a reconnu l’accent, les intonations et le rythme de parole de son supérieur. Le transfert a été effectué vers un compte en Hongrie.

Tentative sur Ferrari (2024)

Un cadre de Ferrari a reçu des messages WhatsApp du “PDG” Benedetto Vigna, suivi d’un appel vocal deepfake. L’employé a posé une question personnelle que seul le vrai PDG pouvait connaître — l’attaquant a raccroché. La tentative a échoué grâce à un réflexe de vérification.

Le cas Ferrari montre que la seule défense fiable est la vérification par une question ou un code que l’attaquant ne peut pas connaître.

Pourquoi les deepfakes changent la donne

Avant les deepfakes, la fraude au président reposait uniquement sur l’email. Un employé vigilant pouvait vérifier en rappelant le dirigeant. Avec les deepfakes :

L’email est confirmé par l’appel : “Je vous appelle suite à l’email que je vous ai envoyé” — la cohérence entre les deux canaux renforce la crédibilité
La voix est reconnue : le collaborateur reconnaît la voix de son PDG, ce qui court-circuite le doute
La visioconférence est la preuve ultime : voir le visage de l’interlocuteur élimine les dernières réserves
Plusieurs interlocuteurs : le cas Arup montre que créer une salle de réunion virtuelle avec 4 deepfakes est désormais possible

La conséquence : “reconnaître la voix” ou “voir la personne” ne suffit plus comme critère de vérification.

Comment protéger votre entreprise

Processus de vérification anti-deepfake

Les mesures classiques de protection contre le BEC doivent être renforcées :

Mot de passe oral : convenir d’un code secret avec les dirigeants pour valider les demandes sensibles par téléphone. L’attaquant peut cloner la voix mais pas deviner le mot de passe
Question personnelle : comme dans le cas Ferrari, poser une question dont seul le vrai interlocuteur connaît la réponse
Callback sur numéro connu : raccrocher et rappeler au numéro enregistré dans le répertoire (pas le numéro affiché, qui peut être spoofé)
Double canal obligatoire : une demande de virement par email ou téléphone doit être confirmée par un canal interne (chat d’entreprise, validation dans le SI financier)

Réduire l’exposition

Limiter les sources audio/vidéo exploitables par les attaquants :

Dirigeants : être conscient que chaque vidéo LinkedIn, podcast ou conférence fournit du matériel pour un deepfake
Messages vocaux : éviter les messages vocaux professionnels qui contiennent la voix du dirigeant dans un contexte identifiable
Réseaux sociaux : les vidéos postées publiquement sont la source la plus facile d’audio

Ce n’est pas réaliste de ne plus publier de vidéos. Mais il faut que les dirigeants et les employés qui gèrent les virements sachent que la voix du PDG est “clonable”.

Sensibilisation

Démonstrations : montrer aux employés à quoi ressemble un deepfake vocal. Générer un clone de la voix du dirigeant (avec son accord) et le diffuser en formation. L’effet est immédiat : quand vous entendez votre patron “parler” sans qu’il ait prononcé un mot, le réflexe de vérification se déclenche
Simulations : intégrer des scénarios deepfake dans les exercices de simulation de phishing
Règle simple : “si une demande financière est inhabituelle, vérifiez par un moyen que l’IA ne peut pas reproduire” (question secrète, code, rappel)

L’avenir des deepfakes

La technologie va continuer à s’améliorer :

Les clones vocaux en temps réel sont déjà opérationnels
Les deepfakes vidéo en temps réel progressent rapidement
Les modèles multimodaux (texte + voix + vidéo) permettront de générer des personnages complets
Les outils de détection progressent aussi, mais avec un retard structurel sur les outils de génération

La conséquence pour les entreprises : la confiance ne peut plus reposer sur l’identité perçue (voix, visage). Elle doit reposer sur des processus de vérification formels qui résistent à la technologie.

Deepfake