Il generatore vocale AI di Microsoft raggiunge la parità umana


Microsoft ha recentemente presentato una nuova impresa tecnologica: VALL-E 2, un generatore di sintesi vocale basato sull’intelligenza artificiale (AI) in grado di riprodurre la voce umana con sorprendente precisione. Sviluppato per essere così convincente da non poter essere reso pubblico, VALL-E 2 rappresenta un importante progresso nel campo della sintesi vocale, ma pone sia opportunità che sfide in termini di etica e sicurezza.

Capacità rivoluzionarie

VALL-E 2 si distingue per la sua capacità di generare voci umane naturali utilizzando solo pochi secondi di audio. I ricercatori di Microsoft ha sottolineato che il modello raggiunge la parità umana, il che significa che il parlato sintetizzato non può essere distinto da quello di una persona reale nei test di riferimento. Questa impresa si basa su due importanti innovazioni tecniche: campionamento consapevole della ripetizione e modellazione di codice in cluster.

Il campionamento sensibile alla ripetizione consente a VALL-E 2 di convertire il testo in parlato in modo più fluido e naturale evitando ripetizioni di token, quelle piccole unità linguistiche come parole o parti di parole. Evitando cicli infiniti di suoni o frasi, questa funzionalità migliora significativamente la qualità e la naturalezza del parlato generato. La modellazione del codice in cluster, a sua volta, aumenta l’efficienza del modello riducendo il numero di token che VALL-E 2 deve elaborare in una singola sequenza di input. Ciò non solo accelera la velocità di generazione del parlato, ma gestisce anche lunghe stringhe di suoni complessi in modo più efficiente, contribuendo così alla robustezza e all’accuratezza del parlato sintetizzato.

Versare valutare le prestazioni del loro sistema, i ricercatori hanno utilizzato campioni audio dalle librerie vocali LibriSpeech e VCTK. Utilizzando ELLA-V, un quadro di valutazione progettato per misurare l’accuratezza e la qualità del parlato generato, VALL-E 2 ha dimostrato la sua superiorità rispetto ai sistemi precedentiraggiungendo per la prima volta la parità umana su criteri quali robustezza della parola, naturalezza e somiglianza dei parlanti.

READ  Perché la maggior parte dei piloti di aerei non hanno la barba?
VALL-E 2
VALL-E 2 è un generatore di sintesi vocale (TTS) in grado di riprodurre la voce di un parlante umano in pochi secondi. Crediti: Varunyu

Sfide etiche e potenziali applicazioni

Nonostante le sue impressionanti capacità, Microsoft ha deciso di non rendere VALL-E 2 disponibile al pubblico a causa di potenziali rischi di uso improprio. La tecnologia potrebbe infatti essere sfruttata per pratiche dannose come imitazione vocale o creazione di deepfake vocalipreoccupazioni che hanno portato altre società di intelligenza artificiale, come OpenAI, a imporre restrizioni simili sulle loro tecnologie.

I ricercatori Microsoft hanno inoltre affermato che VALL-E 2 è attualmente un progetto puramente di ricerca, senza alcuna intenzione di integrarlo in un prodotto o di ampliarne l’accesso pubblico. Tuttavia, hanno riconosciuto il potenziale della tecnologia per varie applicazioni pratiche future. Gli usi previsti includono apprendimento educativo, intrattenimento, giornalismo, creazione di contenuti autoprodotti, funzionalità di accessibilità e sistemi di risposta vocale interattivi.

Per garantire un uso etico e sicuro della tecnologia, i ricercatori hanno suggerito che qualsiasi generalizzazione di VALL-E 2 a parlanti invisibili nel mondo reale dovrebbe includere un protocollo per ottenere l’approvazione da parte dei parlanti coinvolti e un modello per rilevare il discorso sintetizzato.





Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *