Lyrebird, una voce digitale in grado di imitare chiunque

Il menura è un uccello in grado di riprodurre i suoni che sente con un grado di accuratezza sorprendente.

Questa capacità ha ispirato la startup canadese Lyrebird, che dal pennuto ha preso il nome (Lyre bird è il nome inglese del Menura), e ha sviluppato una serie di algoritmi in grado di riprodurre fedelmente voci umane, modificando intonazione e velocità, semplicemente analizzando un frammento audio della fonte sonora originaria, anche piccolo. Utilizzando l’intelligenza artificiale e appena un minuto di registrazione della nostra voce, una sorta di “dna” del timbro, il software di Lyrebird crea un nostro clone sonoro. Che è in grado in poco tempo di parlare al posto nostro, semplicemente scrivendo su na tastiera ciò che gli si vuole far dire. Con tutti le opportunità e i rischi del caso, proprio come in tutti i campi che coinvolgono l’IA.

Le implicazioni sono enormi.

Un codice così potente rende potenzialmente realizzabili documenti audio con frasi e dichiarazioni che, nell’epoca delle fake news, possono aggiungere ancora più caos nel flusso dell’informazione. Per non dire di quello legale, dove alle intercettazioni reali potrebbero sostituirsi voci replicate. E’ facile immaginare Trump che dichiara guerra nucleare alla Corea del Nord, che può diventare uno scherzo virale sul web, ma in mani sbagliate un possibile detonatore mediatico di ben altra portata. Soprattutto se unite alle manipolazioni video sempre più alla portata tecnologica di tutti, creare dei cloni credibili delle persone, almeno in video, è da oggi molto più semplice. Per un esempio più nel quotidiano, basta pensare ad un’azienda con pochi scrupoli che da una chiacchierata telefonica può produrre magari un assenso verbale più dettagliato ad una proposta commerciale.  Naturalmente gli impieghi leciti della tecnologia sono i più disparati, dagli assistenti digitali agli audiolibri passando per gli speech aid per persone disabili, e la voce sintetica un giorno probabilmente potrà completamente sostituire quella umana. Ma al momento tirare un bilancio tra opportunità e rischi di una tecnologia del genere appare complicato.

Intelligenza artificiale.

L’algoritmo di Lyrebird utilzza l’IA per riprodurre il timbro che gli viene sottoposto e riesce a farlo in tempi rapidi, circa un minuto per analizzare i dati e restituire un risultato. Certo il livello qualitativo al momento non è in grado di confondere un orecchio esperto, ma dalle prove fatte nel nostro piccolo, la possibilità che la voce digitale venga confusa con quella reale, esiste già. Basta ascoltare come Lyrebird riesce ad imitare Obama ed in particolare Trump, in diverse intepretazioni della “parlata” del presidente e dell’ex presidente Usa. Questi sono solo due esempi, sul Soundcloud di Lyrebird la stessa frase è ripetuta in differenti intonazioni per dare un’idea della flessibilità del software.

Rischi e soluzioni. Nell’infinita replicabilità del digitale, una nostra “seconda voce” in giro è un’arma dalla potenza difficilmente quantificabile. E per crearla, basta un minuto di voce registrata e la tecnologia di Lyrebird. Esistono altri casi di successo nel campo della sintesi vocale, dalle risposte dei vari assistenti personali degli smartphone a software come il VoCo di Adobe, una sorta di Photoshop per le voci, che però ha bisogno di una ventina di minuti di materiale audio originale per fornire un’elaborazione. Lyrebird invece, come per un seme che diventa un albero, da un’informazione minuscola riesce a ricreare con fedeltà le caratteristiche di un timbro, e a dargli quello che la startup definisce un valore emozionale, modulando i discorsi sintetizzati con diverse intonazioni a seconda dell’intenzione che si vuole dare al contenuto. E anche se per ora quanto prodotto dai voice-print di Lyrebird può essere distinto facilmente dalla voce originale, la tecnologia non potrà che migliorare. Rendendo le voci sintetiche di fatto indistinguibili dagli imitati, magari a loro insaputa. Per i personaggi pubblici, di cui esistono registrazioni in ogni forma, bloccare la clonazione è ovviamente un’impresa già impossibile, una volta che il “dna” vocale diventa di pubblico dominio. E tra le ipotesi, il migliorare della tecnologia porterà ad invalidare le registrazioni vocali come prove nei processi o comunque, elementi probatori in generale.

La risposta dei tre studenti che hanno creato Lyrebird ad un possibile uso fraudolento della loro idea è la definizione di un codice etico e il rilascio pubblico del software (di cui per ora non esiste un prezzo) e delle librerie di programmazione, le “Api”. In modo che chiunque possa entrarne in possesso, così che l’audio di Lyrebird possa diventare una categoria nota, un po’ come avviene per Photoshop e After Effects per foto e video. Le persone insomma saprebbero che è possibile fare con la voce quello che si fa già da tempo ritoccando le immagini, aumentando il livello di consapevolezza collettivo. In ogni caso, Lyrebird esiste e come tutti i campi legati all’intelligenza artificiale, crescerà per diventare un fenomeno di massa, nella forma immaginata dalla startup o trasformato in qualcos’altro dai grandi nomi dell’hi-tech. Che sono già molto interessati a Lyrebird ed ai frutti che questo albero delle voci potrà portare a breve. (fonte)

You may also like...