AI-verktøy i musikkproduksjon er ikke noe nytt. Men hva med musikk generert fra bunnen av med AI? Det er nå en realitet også.
Generativ AI sprer seg sakte til stadig flere disipliner i den kreative industrien. Det startet med AI-kunstgeneratorer og spredte seg deretter til skriving med AI-generert tekst. Nå kan vi legge til musikk på listen.
I nær fremtid vil AI-generert musikk, skapt fra bunnen av, bli en realitet. Faktisk er det allerede en mulighet med Jukebox, OpenAIs musikkskapende AI-modell. Den er ennå ikke tilgjengelig i en brukervennlig applikasjon, og den høres ikke bra nok ut ennå, men de algoritmiske beinene er der.
Her er det du trenger å vite om OpenAIs Jukebox og hva du kan gjøre med den.
Jukebox: AI som genererer musikk som rålyd
Jukebox er et nevralt nett som kan generere musikk i rå lydform når du gir den input som sjanger, artist eller tekst. Den ble utgitt i april 2020 av OpenAI, det samme selskapet som ga oss AI-kunstgeneratoren kalt Dall-E, og AI-chatboten kalt ChatGPT.
I motsetning til Dall-E, som spredte seg raskt over hele verden og gjorde AI til et febrilsk tema for nyheter og media, registrerte ikke Jukebox et bredt spekter av interesse etter utgivelsen. En grunn til dette er at den ikke har en brukervennlig nettapplikasjon – i hvert fall ikke ennå.
Du finner koden på OpenAI-nettstedet, sammen med en grundig forklaring av hvordan kodings- og dekodingsprosessen fungerer.
En annen sannsynlig årsak er at det tar enormt mye tid og datakraft. For å gi deg en idé, kan bare ett minutts lyd ta 9 timer å gjengi. Du trenger en vilje til å utforske modellen i kodeform, pluss mye tålmodighet hvis du vil se hva en AI-modell kan gjøre for å generere musikk.
Eller du kan hoppe til Jukebox Sample Explorer. Det er her OpenAI har lagt ut sine eksperimenter med å generere sanger i likhet med Ella Fitzgerald eller 2Pac.
For å være tydelig, andre AI-musikkverktøy finnes for å hjelpe deg med å generere en sang, men de genererer ikke lyd fra bunnen av. I stedet kombinerer de enten forhåndsinnspilte prøver eller lager MIDI-informasjon som sendes gjennom en digital synthesizer.
Hvordan høres Jukebox ut?
Resultatene av Jukebox er gjenkjennelige, men merkelige. Det er ikke vanskelig å forstå formen på sangen og sjangeren den tilhører, men kvaliteten på resultatene får det til å høres ut som om du hører på noe av den tidligste innspilte musikken: det vil si dempet med mye bråk.
Det er trygt å si at Jukebox ikke produserer den typen hi-fi-lyd du ville hørt fra et par gode hodetelefoner. Det ligner mer på å høre musikk fra en radiostasjon som ikke er helt innstilt på riktig frekvens. Noen sanger er gjengivelser mens andre er fortsettelser av eksisterende sanger. Det er også en kategori for romanartister og stiler, og usette tekster.
Til tross for lydkvaliteten, beskriver tidlige eksperimentører å være imponert over den skumle skjønnheten og den bisarre naturen til musikken skapt av Jukebox. «Som et lydspor til dokumentasjon om et ukjent land med en ukjent kultur», skriver Merzmench på Medium.
Foreløpig er resultatene langt fra gode nok til å kopiere, eller til og med erstatte, musikk skapt av mennesker, men det teknologien beveger seg raskt, og snart nok vil modeller som Jukebox kunne oppnå disse bragdene også.
Hvordan OpenAIs Jukebox ble trent
En del av hvordan Jukebox er i stand til å lage musikk som aldri har eksistert før, er at den er trent på musikken til ekte musikere. OpenAI forklarer at:
"For å trene denne modellen, gjennomsøkte vi nettet for å lage et nytt datasett med 1,2 millioner sanger (600 000 av disse er på engelsk), sammen med de tilsvarende tekstene og metadataene fra LyricWiki."
Gjennomsøking etter data er en praksis som brukes av enkelte AI-selskaper for å lage et sett med data som en AI-modell kan bruke til å lære av og ta avgjørelser når de genererer et bilde, tekst – eller i dette tilfellet – musikk. Datasett opprettet ved gjennomsøking er kontroversielle fordi samtykke ikke er oppnådd fra eierne av dataene i utgangspunktet. Selv om noen plattformer lar deg velg innholdet ditt fra datasett.
Du tror kanskje at 1,2 millioner sanger er mye, men til sammenligning ble Dall-E 2 trent på hundrevis av millioner av bilde-tekst-par fra internett. Med det i tankene har Jukebox sin begrensning.
Det relativt lille treningsbassenget kan ikke fange rikdommen og mangfoldet til menneskelig musikk. OpenAI har uttalt at det i stor grad er trent på vestlig musikk, og representerer en klar skjevhet i hvilken musikk den er i stand til å generere.
Hva kan du gjøre med Jukebox?
Så, med begrensningene i tankene, hva kan du gjøre med Jukebox? En rask måte å svare på det spørsmålet på er å si hva du ikke kan gjøre med Jukebox.
Fordi det tar nesten en halv dag å gjengi ett minutt med musikk, er det lite nyttig for å produsere musikk. I hvert fall ikke i tradisjonell forstand. Normalt beveger musikere seg frem og tilbake mellom å spille rundt på et instrument (improvisere) og planlegge strukturen til en sang. Den samme typen eksperimentering er ikke mulig med Jukebox.
Siden det ikke er lett å lage en sang med Jukebox på dette stadiet, kan du tenke på det mer som en ny måte å generere musikkprøver på. Når du har generert lyd som du liker, kan du bruke den i dine kreative prosjekter som du vanligvis gjør.
Videoen nedenfor er resultatet av at noen brukte musikk laget med Jukebox for å understreke en kort montasjevideo.
Kunstig intelligens har et bredt spekter av applikasjoner også utenfor kreative applikasjoner, og det er derfor det er verdt forstå hva AI er og farene det utgjør.
Blir du rørt av AI Music?
Musikken som genereres av Jukebox er ikke lett å avvise, og på tross av all sin merkelighet og skumle, menneske-maskin-kvalitet, høres den til slutt ut som musikk. Mens musikkindustrien har brukt AI-verktøy en stund nå, er muligheten for å generere musikk som rålyd først nå en realitet.
Men selv om modellene som Jukebox eksisterer, har de ennå ikke blitt pakket inn i et kommersielt verktøy og mangler fortsatt evnene til menneskelige musikere.