VALL-E: l’intelligenza artificiale di Microsoft che imita le voci umane

Ultimo aggiornamento 17 gennaio 2023 alle 12:35 da Claudia Scarciolla .

Microsoft ha appena presentato VALL-E, un'intelligenza artificiale in grado di sintetizzare la voce di qualsiasi persona da un campione audio di soli tre secondi, includendo anche tutte le sue emozioni. Una tecnologia promettente, questo è certo, ma anche a dir poco inquietante, non credete?

Gli investimenti di Microsoft sull'AI
Cos’è VALL-E?
VALL-E: quali sono gli svantaggi e i rischi?

Gli investimenti di Microsoft sull'AI

Microsoft conta decisamente sull'intelligenza artificiale (AI) sviluppata da OpenAI! In effetti, l'azienda prevede di investire 10 miliardi di dollari in questa società, oltre al miliardo di dollari già investito nel 2019, e di integrare l'IA conversazionale ChatGPT nella sua suite Microsoft 365 e nel suo motore di ricerca Bing. E questo è solo l'inizio! Infatti, ha appena pubblicato una dimostrazione del suo nuovo strumento di intelligenza artificiale chiamato VALL-E. Quest'ultimo, diversamente dal generatore di immagini DALL-E, anch’esso sempre sviluppato da OpenAI, è in grado di riprodurre qualsiasi voce. Di per sé, non si tratta di una grande novità. Ma ciò che stupisce, sono la sua velocità di apprendimento, visto che basta un estratto di tre secondi per “copiare” la voce, e la sua capacità di replicare le emozioni della persona che parla. Inoltre, è in grado di creare una registrazione di parole e frasi che l'oratore non ha mai pronunciato prima. E questo è solo l'inizio, poiché questo tipo di IA è destinata ad affinarsi sempre più nel corso del tempo. I risultati sono tanto promettenti quanto preoccupanti, perché spalancano le porte a molteplici aberrazioni.

Cos’è VALL-E?

VALL-E è un "modello di linguaggio codec neurale" per la sintesi vocale (Text To Speech), cioè può sintetizzare una voce da un testo scritto. Per fare ciò, i ricercatori hanno utilizzato l'apprendimento automatico e addestrato l'intelligenza artificiale con oltre 60.000 ore di dati vocali in inglese pronunciati da più di 7.000 parlanti che leggono audiolibri gratuiti di dominio pubblico disponibili su LibriVox. Microsoft ha condiviso diversi frammenti ottenuti su Github. La prima tabella è divisa in quattro colonne che contengono ciascuna un audio. Il primo, intitolato "Speaker Prompt", è l'audio di tre secondi che consente a VALL-E di sintetizzare una voce. La seconda, "Ground Truth", è una registrazione fatta dallo stesso relatore per poterla confrontare con il risultato ottenuto dall'IA di Microsoft. Il terzo, "Baseline", è un estratto ottenuto con una sintesi vocale convenzionale. Infine, la colonna "VALL-E" contiene lo snippet pronunciato dall'intelligenza artificiale di Microsoft.

Successivamente, vengono offerti altri estratti e confronti in modo che ci si possa rendere conto che l'intelligenza artificiale è in grado di generare frammenti di voce/toni casuali. Pertanto, la stessa frase pronunciata due volte dall'AI non avrà lo stesso risultato. Allo stesso modo, può mantenere l'ambiente acustico dell'estratto per sintetizzare la voce "falsa", ma mantenere l'emozione originale. Microsoft offre esempi di rabbia, sonnolenza, divertimento, disgusto e neutralità. Per il momento i risultati sono piuttosto disomogenei: la voce sintetizzata a volte è robotica, a volte davvero sbalorditiva. Ma VALL-E ha sicuramente un potenziale di miglioramento, dato che ad oggi è ancora agli albori.

VALL-E: quali sono gli svantaggi e i rischi?

VALL-E potrebbe essere utilizzato per applicazioni di sintesi vocale di alta qualità, per l'editing vocale, quando la registrazione di una persona viene modificata a partire da una trascrizione di testo, o per creare contenuti audio combinati con altri modelli di intelligenza artificiale generativa, inclusi i video o animazione 3D per esempio. Tuttavia, a differenza di ChatGPT e DALL-E che sono open source, per evitare abusi, Microsoft non ha condiviso il codice della sua IA. Al momento, infatti, non è quindi possibile testare l'IA da soli.

La scelta di Microsoft di non diffondere i codice è dovuta al fatto che VALL-E solleva questioni di moralità, etica e sicurezza. Uno strumento del genere non potrebbe essere pericoloso se fosse aperto al pubblico? In merito Microsoft spiega che: "dato che VALL-E potrebbe sintetizzare il discorso che fa l'identità di un parlante, può includere rischi di uso improprio, come lo spoofing vocale o l'impersonificazione di un altoparlante specifico. Per mitigare questi rischi, è possibile creare un modello di rilevamento per determinare se una clip audio è stata sintetizzata da VALL-E. Applicheremo anche i principi etici di Microsoft AI durante lo sviluppo ulteriore dei modelli".

Gli eccessi causati dall'intelligenza artificiale non sono nuovi. Basta guardare i deepfake (foto o video che utilizzano l'intelligenza artificiale per mettere una faccia su un'altra faccia, e quindi replicare persone “finte”) usati per il revenge porn o fakenews. Il dirottamento di ChatGPT come strumento di cheat in ambito scolastico o anche il creazione di applicazioni simili volte a truffare gli utenti. Vi lasciamo immaginare, ad esempio, i disastri che deriverebbero dal discorso di un politico modificato da questa intelligenza artificiale. Ecco perché è fondamentale mettere in atto delle protezioni prima di democratizzare VALL-E, anche se ciò non è sicuro che risulti essere abbastanza.