Deepfake vocal + virement : la nouvelle fraude au président

Le 4 février 2024, un employé du bureau hongkongais d’Arup, le géant britannique de l’ingénierie, rejoint une visioconférence avec son directeur financier et plusieurs collègues. Pendant une heure, il échange avec eux, pose des questions, reçoit des réponses cohérentes. Rassuré, il valide 15 virements pour un total de 25,6 millions de dollars. Chaque personne présente à cette réunion était un deepfake généré en temps réel par intelligence artificielle.

L’incident Arup n’est pas un cas isolé. C’est le signal que la fraude au président, l’arnaque la plus rentable de la cybercriminalité financière, vient de changer de nature. Ce qui nécessitait autrefois des semaines de manipulation par email fonctionne désormais en un seul appel téléphonique, avec la voix exacte du PDG.

Comment fonctionne le clonage vocal par IA

3 secondes d’audio suffisent

Un clone vocal est une reproduction synthétique de la voix d’une personne, générée par un modèle d’IA entraîné sur des échantillons audio. Le résultat reproduit le timbre, l’intonation, le rythme de parole, l’accent et les particularités phonétiques de la voix source.

En 2019, quand le premier cas de fraude par deepfake vocal a été documenté, le clonage nécessitait plusieurs minutes d’enregistrement et un travail technique conséquent. La situation a radicalement changé. Selon McAfee (2023), 3 secondes d’audio suffisent désormais pour générer un clone exploitable. Fortune rapporte fin 2025 que le clonage vocal a franchi le “seuil d’indiscernabilité” : les auditeurs humains ne font plus la différence entre une voix clonée et une voix authentique.

Les outils sont accessibles. Des services comme ElevenLabs, Resemble.AI ou PlayHT proposent du clonage vocal pour quelques dizaines d’euros par mois. Un escroc qui dispose d’un extrait de la voix d’un dirigeant peut monter une attaque complète pour moins de 50 euros.

La synthèse en temps réel change la donne

Le progrès déterminant n’est pas seulement la qualité du clone, c’est la capacité de l’utiliser en temps réel. Les outils actuels permettent à un attaquant de parler dans un microphone et de faire sortir, avec un délai de quelques centaines de millisecondes, la voix de quelqu’un d’autre. L’attaquant improvise, répond aux questions, ajuste son discours. Dans une conversation téléphonique, où les pauses sont naturelles, la latence passe inaperçue.

Où les escrocs trouvent la voix de votre dirigeant

Les sources sont légales, publiques et abondantes :

Vidéos LinkedIn et YouTube : interventions en webinaire, conférences filmées, interviews
Podcasts : les dirigeants de PME qui participent à des podcasts sectoriels livrent des minutes d’audio de haute qualité
Messages vocaux : répondeur de l’entreprise, audios WhatsApp ou Teams
Appels préliminaires : l’attaquant appelle l’entreprise sous un prétexte anodin et enregistre la conversation

Pour un panorama complet des menaces liées à l’IA : Phishing IA et deepfakes : guide de sensibilisation 2026.

Les cas documentés : de 220 000 euros à 25 millions de dollars

Le cas fondateur : filiale britannique d’un groupe énergétique allemand (2019)

Le Wall Street Journal révèle en 2019 le premier cas documenté de fraude par deepfake vocal. Le PDG d’une filiale britannique reçoit un appel de son supérieur, le PDG du groupe allemand. Il reconnaît sa voix, son accent, ses inflexions. L’interlocuteur lui demande de transférer 220 000 euros vers un fournisseur en Hongrie. Il s’exécute.

La voix était une synthèse IA, entraînée sur des enregistrements publics (interviews, conférences). L’argent a transité par la Hongrie puis le Mexique. Jamais récupéré.

Arup Hong Kong : 25,6 millions de dollars en visioconférence (2024)

L’affaire Arup, révélée par le Guardian, marque un saut qualitatif. L’employé reçoit un email suspect de son CFO. Il hésite. Puis il rejoint la visioconférence mentionnée dans le message. À l’écran : son CFO et plusieurs collègues. Tous des deepfakes vidéo en temps réel.

L’attaque illustre trois évolutions : le passage de l’audio à la vidéo, la simulation de groupe (plusieurs personnages fictifs interagissant entre eux), et l’exploitation du doute initial de la victime, qui cherchait justement à vérifier l’email suspect.

Ferrari : la tentative déjouée par une question personnelle (2024)

Le PDG de Ferrari, Benedetto Vigna, a été ciblé par un appel deepfake. La voix était convaincante. L’appel a échoué parce qu’un dirigeant a posé une question personnelle que seul le vrai interlocuteur pouvait connaître. L’attaquant n’a pas pu répondre.

Le cas Ferrari montre que les deepfakes actuels ne résistent pas aux questions hors script : l’attaquant peut reproduire une voix, mais pas les souvenirs ni les connaissances privées de la personne imitée. Mais ce réflexe de vérification est rare : la plupart des employés n’y penseraient pas sous la pression d’un appel du “PDG”.

Les cas français et les chiffres du CESIN

En France, les cas sont moins médiatisés mais réels. Ce scénario, reconstitué à partir de cas réels, est représentatif. Une PME agroalimentaire bretonne a perdu 340 000 euros en 2022 après un appel deepfake du “PDG” suivi d’un email de confirmation avec des coordonnées bancaires en Hongrie.

Le baromètre CESIN observe une hausse des tentatives de fraude utilisant une voix synthétique. Cybermalveillance.gouv.fr confirme une hausse des signalements de vishing impliquant des voix “étrangement réalistes” depuis 2024.

Deloitte anticipe une explosion des pertes liées à la fraude par IA générative dans les prochaines années.

Flux d’attaque : de la reconnaissance au virement frauduleux

Phase 1 : reconnaissance (J-30 à J-7)

L’attaquant sélectionne une entreprise dont le dirigeant est publiquement visible. Il collecte sur LinkedIn, Infogreffe, le site web de l’entreprise et les réseaux sociaux : l’organigramme, les noms des personnes habilitées aux virements, les habitudes du dirigeant, et surtout ses échantillons audio.

Un post Instagram depuis un lieu de vacances signale l’absence du dirigeant. C’est le moment d’attaquer. Cette phase de reconnaissance est identique à celle de la fraude au président classique.

Phase 2 : création du clone vocal (J-7 à J-1)

L’attaquant charge les échantillons audio dans un outil de clonage. Processus : upload, entraînement du modèle (quelques minutes à quelques heures), test et ajustement. En parallèle, il prépare un numéro de téléphone avec spoofing de l’identifiant appelant (pour afficher le numéro du dirigeant) et un domaine email sosie pour les messages de “confirmation”.

Phase 3 : l’appel frauduleux (Jour J)

L’appel suit un script éprouvé : ouverture avec le ton et les expressions habituels du dirigeant, prétexte justifiant l’urgence et la confidentialité (acquisition, litige fournisseur), isolation de la cible (“ne parle de ça à personne”), puis transmission des coordonnées bancaires par email “confirmées” par l’appel vocal.

Phase 4 : fuite des fonds (H+1 à H+48)

Les fonds transitent à travers plusieurs comptes intermédiaires (Europe de l’Est, puis Asie ou Afrique de l’Ouest). En 48 heures, l’argent est fractionné et dispersé. Le FBI estime la fenêtre de récupération à 24-48 heures. Au-delà, le taux de récupération chute sous 10 %.

Pourquoi la fraude classique est “superchargée” par le deepfake

La fraude au président existe depuis 20 ans. Gilbert Chikli opérait dès les années 2000 par simple téléphone. Le deepfake ne crée pas une nouvelle arnaque : il supprime ses principales failles.

La voix inconnue n’est plus un obstacle. Un comptable qui connaissait bien la voix de son patron pouvait détecter l’imposture d’un escroc classique. Avec le deepfake, la voix est authentique, les inflexions correctes, l’accent reproduit. Le test “je reconnais la voix de mon patron” est caduc.

Le contre-appel est retourné contre la victime. La recommandation classique (“en cas de doute, appelez le dirigeant”) supposait que la voix au téléphone prouve l’identité. Dans certaines attaques documentées, c’est l’attaquant qui initie le “contre-appel” : l’employé reçoit un email suspect, hésite, puis reçoit un appel du “dirigeant” qui confirme. Les deux canaux sont frauduleux.

La barrière des langues disparaît. Un escroc basé n’importe où dans le monde peut passer un appel avec l’accent régional du dirigeant ciblé. La délocalisation des escrocs, handicap pour les attaques téléphoniques classiques, devient invisible.

Le coût d’entrée s’effondre. En 2019, monter une attaque par deepfake vocal nécessitait des compétences techniques rares et un investissement de plusieurs milliers d’euros. En 2026, un abonnement de clonage vocal coûte 5 à 50 euros par mois, et le spoofing d’un numéro de téléphone se fait pour quelques centimes via des services VoIP. Le coût total d’une attaque est passé sous la barre des 50 euros. Résultat : les PME de 20 à 100 salariés, autrefois trop petites pour intéresser les attaquants sophistiqués, deviennent des cibles rentables.

Fraude classique vs fraude par deepfake vocal

Critère	Fraude au président classique	Fraude par deepfake vocal
Coût pour l’attaquant	100-500 € (téléphone, VoIP)	< 50 € (clonage IA + VoIP)
Temps de préparation	1-2 semaines	2-5 jours
Barrière technique	Faible (acting vocal)	Faible (outils en libre-service)
Détection par la victime	Possible (voix inconnue, accent)	Très difficile (voix identique)
Efficacité du contre-appel	Élevée (voix différente)	Faible (l’attaquant peut répondre)
Taille de cible rentable	ETI et grandes entreprises	PME dès 20 salariés

Le défi de la détection : pourquoi les employés sont pris au dépourvu

La majorité des programmes de sensibilisation au phishing se concentrent sur l’email. Les employés apprennent à repérer les liens suspects et les domaines sosies. Cette formation crée un angle mort : elle ne prépare pas aux attaques vocales.

Un email suspect peut être relu, analysé, montré à un collègue. Un appel téléphonique du “PDG” se déroule en temps réel : l’employé doit décider immédiatement, sous pression. Les travaux de Cialdini sur l’influence montrent que la voix humaine est un vecteur d’autorité plus puissant que l’écrit. L’indice de distance hiérarchique de Hofstede place la France à 68 sur 100, un score élevé : les Français acceptent plus spontanément les instructions d’un supérieur sans les remettre en question.

Le faux sentiment de sécurité du “je reconnais sa voix” aggrave le problème. Fortune rapporte que les auditeurs humains identifient correctement une voix clonée dans moins de 50 % des cas en conditions contrôlées. En conditions réelles (appel inattendu, stress, multi-tâches), le taux est encore plus bas.

Les mesures de prévention concrètes

Procédures organisationnelles : le rempart qui tient

Face au deepfake vocal, ni la voix, ni le visage, ni le numéro de téléphone affiché ne constituent des preuves d’identité. Seules les procédures formalisées résistent.

Contre-appel sur numéro vérifié. Pour toute demande de virement, raccrocher et rappeler sur un numéro préenregistré dans l’annuaire interne. Pas le numéro affiché à l’écran (falsifiable), pas le numéro mentionné dans l’email.

Mot de passe verbal. Un code convenu entre le dirigeant et les personnes habilitées aux virements, communiqué en personne et changé chaque semaine. L’attaquant qui clone la voix ne connaît pas le code. Certaines entreprises utilisent deux codes : un “tout va bien” et un “je suis sous contrainte”.

Double validation des virements. Aucun virement supérieur à un seuil défini (5 000 EUR pour une petite PME, 20 000 EUR pour une ETI) ne doit être exécuté par une seule personne. Deux personnes distinctes approuvent, chacune avec ses propres identifiants et MFA.

Interdiction du virement par instruction téléphonique seule. Toute demande par téléphone doit être confirmée par un second canal formel, et inversement. L’attaquant qui contrôle un seul canal est bloqué. Pour mettre en place ces procédures : Guide : procédure anti-fraude au virement.

Culture d’entreprise : autoriser la vérification

Les procédures sont inutiles si les employés n’osent pas les appliquer. Le comptable qui rappelle le PDG pour vérifier un virement doit être félicité, pas rabroué. Le dirigeant doit communiquer que la vérification n’est pas un acte de défiance mais une procédure qu’il soutient personnellement. Les procédures doivent être écrites et accessibles à tous les employés concernés.

Contre-mesures techniques

Plusieurs technologies émergent, mais aucune ne remplace les procédures humaines en 2026.

Détection de deepfake audio. Des solutions comme Pindrop, Resemble Detect ou Reality Defender analysent les caractéristiques spectrales de la voix (micro-variations de fréquence, régularité anormale du spectre, absence de bruits respiratoires). Le taux de faux positifs reste trop élevé pour un déploiement généralisé.

Détection d’anomalies sur les virements. Les outils de gestion de trésorerie modernes alertent sur les virements vers des pays inhabituels, les montants hors fourchette historique ou les fréquences anormales. Pour protéger les comptes email des dirigeants : Protéger les emails des dirigeants.

MFA sur les plateformes bancaires. Selon Microsoft (Digital Defense Report 2024), le MFA bloque 99,2 % des attaques par compromission de compte. Combiné à des plafonds de virement et des alertes automatiques, c’est un filet de sécurité technique solide.

Intégrer le deepfake dans les programmes de sensibilisation

Le SANS Institute (Security Awareness Report 2025) confirme que seule la mise en situation modifie durablement les comportements. Les formations e-learning classiques ne préparent pas aux menaces vocales.

Les scénarios de simulation à déployer

Scénario 1 : l’appel du faux dirigeant. Un simulateur appelle un employé du service financier en se faisant passer pour le PDG et demande un virement urgent. Test : le réflexe de contre-appel et de demande de code verbal se déclenche-t-il ?

Scénario 2 : email + appel combiné. L’employé reçoit un email suspect, puis un appel qui “confirme” la demande. Test : résistance à la double confirmation frauduleuse.

Scénario 3 : la fausse visioconférence. Plus ambitieux mais pertinent pour les entreprises exposées, ce scénario simule une réunion vidéo pour sensibiliser les équipes à la possibilité de visioconférences truquées, à la manière du cas Arup.

Scénario 4 : changement de RIB par téléphone. Un simulateur se fait passer pour un fournisseur et annonce un changement de coordonnées bancaires. Test : la procédure de vérification est-elle appliquée ?

Chaque simulation doit être suivie d’un débriefing individuel : qu’est-ce qui a fonctionné, qu’est-ce qui n’a pas fonctionné, quel réflexe mettre en place pour la prochaine fois. Les organisations qui simulent régulièrement voient leur taux de clic passer de ~33 % à moins de 5 % en 12 mois (KnowBe4, 2024). Pour les benchmarks par secteur : Taux de clic phishing : benchmarks par secteur.

Cadre juridique : ce que dit la loi

LOPMI (2023). Le dépôt de plainte doit intervenir dans les 72 heures suivant la découverte de l’incident pour maintenir les droits à indemnisation par l’assurance cyber.

Devoir de vigilance bancaire. La jurisprudence française (arrêt Etna Industrie, Cass. com., 2018) reconnaît un devoir de vigilance des banques face aux virements anormaux. Les tribunaux tiennent compte de l’existence ou de l’absence de procédures internes chez l’entreprise victime. Ne pas avoir de double validation réduit les chances d’indemnisation.

NIS 2. La directive impose aux entités concernées des mesures incluant la protection contre l’ingénierie sociale. La sensibilisation au deepfake n’est plus optionnelle pour les entreprises soumises à NIS 2.

Réagir dans les premières heures

Minute 0 : alerter la banque. Service fraude directement. Demander le rappel du virement. Pour les SEPA, un rappel est possible tant que le virement n’a pas été crédité.

Heure 1 : déposer plainte. Commissariat, gendarmerie ou plateforme THESEE. Rappel : 72 heures maximum (LOPMI).

Heure 2 : préserver les preuves. Ne rien supprimer. Exporter les en-têtes email, conserver les journaux d’appels.

Heure 3 : alerter l’assureur cyber. Déclarer le sinistre avec la preuve du dépôt de plainte.

Heure 4 : vérifier les accès. Si un compte email a pu être compromis : réinitialiser les mots de passe, activer le MFA, inspecter les connexions récentes.

Conclusion : la voix n’est plus une preuve d’identité

La fraude au président par deepfake vocal n’est pas une menace future. Les cas Arup (25,6 M$), le groupe énergétique britannique (220 000 EUR) et les incidents français le confirment. Le baromètre CESIN confirme la hausse des tentatives de fraude par voix synthétique.

La voix de votre PDG au téléphone ne prouve plus son identité. Son visage en visioconférence non plus. Le seul rempart fiable repose sur des procédures formelles (double signature, contre-appel sur numéro vérifié, code verbal), une culture d’entreprise qui valorise la vérification, et des simulations régulières.

Les mesures techniques (détection de deepfake, biométrie vocale, MFA) progressent mais ne sont pas encore matures pour les PME. C’est la procédure humaine qui fait la différence entre un virement frauduleux de 300 000 euros et un appel identifié et signalé en 30 secondes.

Testez la sécurité email de votre entreprise. Le test gratuit nophi.sh analyse vos enregistrements SPF, DKIM et DMARC en quelques secondes et vous attribue un score avec des recommandations.

Thomas Ferreira est consultant en cybersécurité et fondateur de nophi.sh. Il accompagne les PME françaises dans la mise en place de programmes de sensibilisation au phishing et à la fraude au président.

Ressources complémentaires :

Test gratuit de sécurité email (SPF/DKIM/DMARC) - vérifiez si votre domaine est protégé contre l’usurpation
Fraude au président : les arnaques les plus coûteuses en France - les cas documentés et la jurisprudence
Phishing IA et deepfakes : guide de sensibilisation 2026 - intégrer les deepfakes dans votre programme
Procédure anti-fraude au virement - les procédures à mettre en place
Protéger les emails des dirigeants - sécuriser les comptes les plus ciblés
Nouvelles formes de phishing : quishing, vishing, smishing - le panorama des menaces émergentes
Cybermalveillance.gouv.fr - plateforme nationale d’assistance aux victimes
ANSSI - Guide cybersécurité pour les TPE/PME - bonnes pratiques recommandées par l’État