Il Governatore della Banca d’Italia Non Ha Mai Detto Quello: Deepfake, Frodi Finanziarie e la Fine dell’Identità Digitale Affidabile

Il 26 febbraio 2026, la Banca d’Italia ha presentato denuncia all’Autorità giudiziaria per la diffusione di video e immagini deepfake del governatore Fabio Panetta, utilizzati come materiale promozionale per piattaforme di investimento fraudolente. Non è la prima volta che un’istituzione italiana si trova a dover smentire contenuti digitali che la riguardano. È però forse la prima volta che una delle istituzioni finanziarie più autorevoli del paese si trova nella posizione paradossale di dover spiegare pubblicamente che il proprio governatore non ha mai detto quello che si vede e si sente in quel video.

Il caso Panetta/Bankitalia è emblematico di una transizione che il settore della sicurezza informatica sta osservando da qualche anno ma che nel 2026 ha raggiunto la maturità operativa: la tecnologia per creare deepfake convincenti non è più prerogativa di laboratori di ricerca o attori statali dotati di risorse illimitate. È disponibile, accessibile e progressivamente automatizzata. Il costo per produrre un video deepfake convincente di un personaggio pubblico è sceso da decine di migliaia di dollari (2020) a poche centinaia (2024) a pressoché zero con gli strumenti open source disponibili nel 2026.

Come funziona tecnicamente un deepfake di questa qualità

Un deepfake video convincente di un personaggio pubblico richiede tre componenti: un modello di sintesi del volto (face swap), un modello di sintesi vocale (voice cloning), e materiale di addestramento sufficiente. Per figure pubbliche come il governatore di una banca centrale, il materiale di addestramento è abbondante e gratuito: interviste, conferenze stampa, discorsi ufficiali disponibili su YouTube e sui canali istituzionali. Non serve accedere a nessuna fonte privata.

I modelli di sintesi vocale moderni (Eleven Labs, Cartesia, e decine di equivalenti open source) sono in grado di clonare una voce da 30-60 secondi di audio pulito e generare parlato sintetico praticamente indistinguibile dall’originale per un ascoltatore non specializzato. I modelli di face swap (DeepFaceLab, FaceSwapper, e le implementazioni su Stable Diffusion) permettono di sovrapporre il volto di un soggetto su un video di un attore, con un livello di realismo che supera la capacità di rilevamento umano nel 90% dei casi secondo gli studi del MIT Media Lab del 2025.

PILLOLA TECNICA — Detection dei deepfake: i metodi di rilevamento automatico si basano su inconsistenze nel battito delle palpebre (modelli precoce non lo simulavano correttamente), artefatti nei bordi del viso durante i movimenti rapidi, inconsistenze nella riflessione della luce negli occhi, e pattern spettrali invisibili all’occhio umano ma rilevabili da classificatori addestrati. Microsoft Authenticator e alcuni tool specializzati (Sensity AI, Reality Defender) offrono detection in tempo reale. Il problema è che i modelli di generazione si aggiornano più velocemente dei modelli di detection: ogni nuova architettura generativa rende obsoleti i detector precedenti in un ciclo di arms race continuo.

Il dato che dovrebbe allarmare tutti: solo il 7% è pronto

L’ACFE (Association of Certified Fraud Examiners) e SAS hanno pubblicato il 25 marzo 2026 il loro “2026 Anti-Fraud Technology Benchmarking Report”, basato su 713 interviste a professionisti antifrode in 8 regioni del mondo. Il dato più rilevante: solo il 7% dei professionisti antifrode dichiara che la propria organizzazione è “più che moderatamente preparata” a rilevare o prevenire le frodi alimentate dall’intelligenza artificiale. Trascrivere questo numero in prospettiva significa che il 93% delle organizzazioni che si occupano professionalmente di antifrode si considera insufficientemente preparato contro la minaccia specifica delle frodi AI-powered.

Questo divario è particolarmente rilevante per due categorie di vittime. La prima sono le persone fisiche: le frodi deepfake che sfruttano l’immagine di personaggi pubblici per promuovere investimenti fraudolenti colpiscono individui che non hanno né gli strumenti né le competenze per valutare l’autenticità del contenuto che stanno guardando. La seconda sono le aziende: le frodi BEC (Business Email Compromise) si sono evolute in vishing (voice phishing) e video phishing, dove l’attaccante simula in tempo reale la voce o il volto di un dirigente durante una videochiamata per autorizzare bonifici fraudolenti.

Il caso più inquietante: deepfake in tempo reale nelle video call

Nel 2025, HKEx (la borsa di Hong Kong) ha documentato un caso in cui un dipendente di un’azienda quotata ha partecipato a una videochiamata con quello che credeva essere il CFO dell’azienda e altri dirigenti. Tutti i partecipanti erano deepfake in tempo reale. Il dipendente ha autorizzato un trasferimento da 25 milioni di dollari. Il caso è diventato il riferimento globale per le frodi deepfake aziendali, ma non è rimasto isolato: nel 2026 si moltiplicano i report di tentativi simili, con livelli di sofisticazione crescente.

La tecnologia per il deepfake video in tempo reale (Real-time Deepfake — RTDF) era considerata fantascienza nel 2022. Nel 2025 era disponibile in prodotti commerciali come Deep Live Cam. Nel 2026 esistono implementazioni che girano localmente su hardware consumer con latenza inferiore a 100ms, sufficiente per una conversazione fluida. Il che significa che chiunque, con un laptop ragionevolmente moderno e un software scaricabile gratuitamente, può impersonare visivamente qualsiasi persona di cui abbia sufficiente materiale video.

PILLOLA TECNICA — Contromisure operative contro il deepfake fraud: (1) Parole d’ordine fuori banda: stabilire con i propri interlocutori abituali una parola o frase di verifica che deve essere pronunciata in ogni chiamata non pianificata che implichi richieste inusuali. (2) Verifica ortogonale: qualsiasi richiesta di bonifico superiore a soglie predefinite richiede una chiamata di conferma su un numero diverso da quello da cui è arrivata la richiesta originale. (3) Metadati di rete: i deepfake in tempo reale generano pattern di utilizzo della CPU e della rete specifici; sistemi di monitoraggio avanzati possono rilevarli. (4) Watermarking preventivo: alcune piattaforme di videoconferenza stanno integrando firme digitali nei flussi video per certificare l’autenticità in tempo reale. (5) AI Act art. 50: dall’agosto 2026 i contenuti generati da AI dovranno essere etichettati come tali, ma questa è normativa, non tecnologia — l’applicazione reale sarà difficile da controllare.

Cosa dovrebbero fare le organizzazioni adesso

La risposta non è tecnologica nella sua forma primaria. È procedurale. Le procedure di autorizzazione per operazioni finanziarie rilevanti devono essere ridisegnate partendo dall’assunzione che qualsiasi canale digitale — email, telefono, video — può essere falsificato. Questo significa verifiche fuori banda su canali fisicamente distinti, scale di autorizzazione che richiedono firma di più persone per importi sopra soglia, e formazione specifica del personale finanziario e amministrativo.

Sul piano della prevenzione, l’AI Act europeo entrerà in vigore con i suoi obblighi di disclosure per i contenuti AI-generated dall’agosto 2026. Ma come ogni normativa, la sua efficacia dipenderà dalla capacità di enforcement: richiedere l’etichettatura ai creatori è relativamente semplice, ma controllare che chi crea deepfake fraudolenti rispetti l’obbligo è un problema diverso. Le frodi non aspettano le normative per adeguarsi.