Deepfake musikk etterligner stilen til en bestemt artist, inkludert stemmen deres. Hvordan er det mulig for det å høres så ekte ut?
I lang tid klarte musikk å unngå deepfakes-verdenen fordi det rett og slett var for komplisert å syntetisere noens stemme. Det hele endret seg med fremskritt innen AI-teknologi. Det har resultert i stemmekloner av kjente artister som kan brukes til å produsere nye vokalspor.
Ettersom AI-verktøy blir mer tilgjengelige for vanlige mennesker, er dypfalsk musikk et økende problem. Her er hva det er og hvordan det lages.
Utviklingen av Deepfake Music
Når du hører favorittartisten din synge på Spotify eller YouTube, tror du knapt at det kan være falskt, men AI-fremskritt har gjort dette til en realitet. Ved siden av falske bilder og videoer finnes det også dypfalsk musikk.
AI-verktøy kan trofast reprodusere en persons sangstemme ved å trene en AI-modell på lydprøver av stemmen deres. Laget av fans av artisten, eller fans av AI-teknologi, prøver flere mennesker å lage vokale doppelgjengere.
Folk har prøvd å syntetisere stemmen ved hjelp av en datamaskin i årevis, og går så langt tilbake som 1961 da IBM 7094 var den første datamaskinen som sang. Du kan høre datamaskingenerert stemme som synger Daisy Bell i et YouTube-klipp og prøv å forestille deg hvor fantastisk dette øyeblikket var.
Spol frem til det 21. århundre og AI-teknologi har begge forbedret kvaliteten på syntetisert stemme og tillot oss å gjøre ting de fleste av oss aldri trodde var mulig før nå, som å klone folks stemmer.
Bare ta en titt på dette klippet av Roberto Nickson som forvandler stemmen sin til artisten og rapperen Kanye West. Å se videoen føles uhyggelig, det høres virkelig ut som Kanye, men det er også ubehagelig å se. Uten å tenke for mye på hvordan kunstneren kan tenke eller føle, og uten tillatelse, kan det oppfattes som å tilegne seg noens stemme.
I motsetning til datamaskingjengivelsen av Daisy Bell, er AI-vokalkloning i stand til å gjengi den nøyaktige likheten til noens stemme, som inkluderer alle de subtile forskjellene i klangfarge som hjelper oss å identifisere noens unike vokal profil. Ulisensiert, og gjort uten tillatelse, har imidlertid dypfalsk musikk noen alvorlige problemer, som vi kommer til senere.
Hvordan Deepfake-sanger skapes
Ulike metoder blir brukt for å lage dypfalske sanger, men mange av dem bruker AI-teknologi. Åpen kildekode-prosjekter som SoftVC VITS Singing Voice Conversion-prosjekt på GitHub, for eksempel har utviklet en AI-modell som gjør det den sier i navnet: konverterer et lydeksempel til en sangstemme.
Denne modellen tar en eksisterende lydfil av noen som synger og konverterer den til stemmen til noen andre. Ting som teksten og rytmen til den originale stemmen beholdes, men tonen, klangen og de personlige vokalkvalitetene konverteres til stemmen spesifisert av treningsdatasettet.
Husk at andre deler av sangen fortsatt kan produseres manuelt, som å lage beats og melodier i samme stil og sjanger som den originale artisten.
For å lage en dyp forfalskning av Kanye Wests stemme, måtte et tredjepartsdatasett legges inn i SoftVC VITS-modellen, som ville inkludere prøver av den ekte Kanyes stemme. Filen som inneholder datasettet har siden blitt fjernet av forfatteren, noe som ikke er overraskende tatt i betraktning det uklare juridiske territoriet som kan komme med uautoriserte datasett.
Selv om den ikke har blitt omgjort til en kommersiell app, kan du finne en versjon av SoftVC VITS-modell på Google Collab som er mer brukervennlig.
Inntil de etiske og juridiske grensene er på plass, er det mulig at flere brukervennlige stemmekloningsapper vil pop up – ikke så forskjellig fra Drayk.it-appen som gjorde en tekstbeskrivelse til sanger stilt etter artisten Drake. Den ble senere stengt.
Noen andre verktøy som brukes til å lage dypfalsk musikk inkluderer store språkmodeller som ChatGPT, som kan brukes til å skrive tekster i stil med en kjent artist; og OpenAIs Jukebox og Googles MusicLM, som er generative AI-modeller som kan lage musikk i rå lydform helt fra bunnen av.
Kan du høre forskjellen?
Et spor laget av en anonym bruker kalt Ghostwriter gikk viralt på TikTok i april 2023, ikke en liten del fordi det inneholdt tekster sunget av artistene Drake og The Weeknd. Selvfølgelig var dette ikke de virkelige stemmene til artistene, men falske.
Hadde ikke vokalen vært en så god kopi av originalen, hadde den kanskje ikke vært en hit. Med litt graving kunne du ganske raskt finne ut om det var den virkelige avtalen eller ikke, men bare ved å bruke ørene dine kunne du bare gjette om det var autentisk.
Hvis du vil identifisere et AI-generert bilde det er i det minste noen få visuelle aberrasjoner du kan se etter. Når det gjelder lyd, betyr ikke tegn som lavfidelitetslyd eller feil i sporet så mye siden det er kreative valg som brukes i musikkproduksjon hele tiden.
Det som er enda mer interessant er at mange mennesker virkelig liker sangen, selv etter å ha oppdaget at det ikke var de virkelige stemmene til Drake eller The Weeknd. Beundrere påpekte at ikke alt bare ble generert med AI, og at det gikk med ekte dyktighet og arbeid med å skrive tekstene, komponere beats og sette det hele sammen.
Sporet kom til Spotify og YouTube før det ble tatt ned dagene etter, men ikke før fansen hadde lastet ned sangen som mp3. Du kan fortsatt finne kopier av sangen på nettet hvis du søker på «Heart On My Sleeve, Drake ft. Helgen".
Snart nok vil det bli nesten umulig å oppdage forskjellen mellom AI-genererte vokalkloner og den ekte menneskelige stemmen. Med det i tankene stiller folk spørsmål ved om dette er en god bruk av AI-teknologi i utgangspunktet, eller til og med en lovlig bruk av den.
Problemer med Deepfake Music
På den ene siden liker folk å lytte til fan-lagde mashups av favorittartistene deres og respekterer kreativiteten som gjør det til en realitet. Men muligheten til å ha vokale kloner i utgangspunktet er avhengig av datasett som kanskje er autorisert eller ikke.
Uten tillatelse blir prøver av en persons stemme samlet inn i et datasett som deretter brukes til å trene en AI-stemmekonverteringsmodell. Det ligner på problemet kunstnere som ønsker å fjerne bildene sine fra treningsdatasett som brukes til å trene AI-bildegeneratorer som Dall-E eller Midjourney.
Opphavsrettsloven er heller ikke helt forberedt på å håndtere deepfake musikk. I 2020 mislyktes artisten Jay-Z i å prøve å tvinge YouTube til å ta ned AI-generert lyd av ham som rapper linjer fra William Shakespeares «To Be or Not to Be»-enest.
Når en dypfalsk sang lastes opp til Spotify eller YouTube, er det også spørsmålet om hvem som tjener penger. Skal du kunne tjene penger på en sang som kopierer andres stemme nesten nøyaktig?
Holly Herndon er en kunstner som har prøvd å lage et system der folk kan kompensere henne i bytte for å bruke stemmemodellen hennes til å lage originalt verk. Mens andre artister som Nick Cave har uttalt seg mot AI, skriver:
Sanger oppstår fra lidelse, med det mener jeg at de er basert på den komplekse, indre menneskelige kampen for skapelsen, og vel, så vidt jeg vet, føles ikke algoritmer.
Noen ganger, AI-generert tekst kan mangle kreativitet til sammen, men de er fortsatt lagt ut på nettet. AI kan resultere i mye dårlig musikk som har hatt svært liten innsats.
Finne en balanse mellom musikk og kunstig intelligens
Deepfake musikk lages ved hjelp av AI-verktøy og AI-modeller som har blitt trent på uautoriserte datasett. Noen modeller er åpen kildekode og fritt tilgjengelig, mens andre forsøk er gjort på å pakke dem inn i en brukervennlig app.
Etter hvert som flere får tak i dypfalske musikkmodeller eller apper, er det verdt å tenke på effekten på artisten. Å få samtykke til opplæringsdatasett og kompensasjon til artisten er bare noen av problemene som truer over AI-musikkteknologi.