Googles MusicLM virket lovende med sin evne til å generere musikk fra tekstmeldinger. Men etter å ha satt den på prøve, leverte den ikke helt.
I januar 2023 annonserte Google MusicLM, et eksperimentelt AI-verktøy som kan generere musikk basert på tekstbeskrivelser. Ved siden av nyhetene ga Google ut en fantastisk forskningsartikkel for MusicLM som gjorde at mange ble blendet av evnen til å trylle frem musikk fra løse luften.
Gitt en tekstmelding, lovet modellen å produsere high fidelity musikk som leverte på alle slags beskrivelser fra sjanger til instrument til abstrakte bildetekster som beskriver kjente kunstverk. Nå som MusicLM er åpent for publikum, bestemte vi oss for å sette det på prøve.
Googles forsøk på å lage en AI-musikkgenerator
Å gjøre om en tekstmelding som «avslappende jazz» til et spilleklar spor er uten tvil den hellige gral av eksperimenter innen AI-musikk. I likhet med kjente AI-bildegeneratorer som Dall-E eller Midjourney, trenger du ikke ha en flekk av musikkkunnskap for å produsere et spor som har en melodi og beat.
I mai 2023 kunne de som meldte seg på Googles AI Test Kitchen prøve demoen for første gang. Møtt av en brukervennlig nettside og et par veiledende regler – elektroniske og klassiske instrumentene fungerer best, og ikke glem å spesifisere en "vibe" – å produsere en musikkbit er ufattelig lett.
Hastighet er en av de få tingene som MusicLM virkelig leverer på, sammen med prøver med relativt høy kvalitet. Den sanne testen skulle imidlertid ikke måles med en stoppeklokke alene. Kan MusicLM produsere ekte, hørbar musikk basert på noen få ord? Ikke akkurat (vi kommer til dette snart).
Slik bruker du MusicLM i Googles AI-testkjøkken
Å bruke MusicLM er enkelt, du kan registrere deg på ventelisten for Googles AI Test Kitchen hvis du vil prøve det.
På nettappen vil du se en tekstboks der du kan komponere en forespørsel fra noen få ord til noen få setninger som beskriver hva slags musikk du vil høre. For best resultat råder Google deg til å "være veldig beskrivende", og legger til at du bør prøve å inkludere stemningen og følelsene til musikken.
Når du er klar, trykk enter for å starte behandlingen. I løpet av ca. 30 sekunder vil to lydbiter være tilgjengelige for deg på audition. Av de to har du muligheten til å gi et trofé til den beste prøven som samsvarer med oppfordringen din, noe som igjen hjelper Google med å trene modellen og forbedre produksjonen.
Hvordan MusicLM høres ut
Mennesker har laget musikk siden minst 40 000 år siden uten noen endelig anelse om musikk kom før, etter eller samtidig med utviklingen av språk. Så på noen måter er det ikke overraskende at MusicLM ikke helt har knekt koden på denne eldgamle universelle kunsten.
Googles MusicLM-forskningsartikkel foreslo at MusicLM kunne generere musikk fra bildetekster som tilhører kjente kunstverk, og følge med instruksjoner som å endre sjanger eller humør på en jevn måte etter en rekke forskjellige spør.
Før vi kom til så høye bestillinger, fant vi imidlertid ut at MusicLM hadde flere grunnleggende problemer å overvinne først.
Vanskeligheter med å holde seg til tempo
Den mest grunnleggende jobben til enhver musiker er ganske enkelt å spille i tide. Med andre ord, hold deg til tempoet. Overraskende nok er det ikke noe MusicLM kan gjøre 100 % av tiden.
Faktisk, ved å bruke den samme prompten 10 ganger, som produserer 20 musikkspor, var det bare tre som var i tide. De resterende 17 samplene var raskere eller langsommere enn det spesifiserte tempoet som ble skrevet i "beats per minute", et mye brukt begrep for å beskrive musikk.
I dette eksemplet brukte vi ledeteksten "solo klassisk piano spilt med 80 slag i minuttet, fredelig og meditativ". Ved nærmere lytting ble musikken ofte raskere eller redusert innenfor den lille samplelengden.
Musikken manglet også en sterk beat og hørtes ut som om noen hadde truffet play midtveis i stykket. Om dette var med vilje eller ikke, det gjør det vanskelig å bedømme om MusicLM faktisk kan komponere en skikkelig begynnelse eller slutt på et musikkstykke i tillegg til å holde seg til takten.
Tilfeldig instrumentvalg
Kanskje MusicLM ennå ikke hadde lært å spille på streng timing, så vi gikk videre til en annen vanlig musikkparameter. Vi ønsket å se om den ville imøtekomme vår forespørsel om visse instrumenter.
Vi skrev flere forskjellige spørsmål som inkluderte beskrivelser som "Solo synthesizer" og "Solo bassgitar". Andre var større ensembler som "String quartet" eller "Jazz band". I det hele tatt virket det som en 50:50 sjanse for at du ville få det du ba om.
En teori er at modellen assosierer noen instrumenter med populære musikksjangre. Ta for eksempel ledeteksten "Solo synthesizer, akkordprogresjon. Livlig og optimistisk". I stedet for å få en synthesizerlyd alene, produserte MusicLM et elektronisk spor komplett med trommer og bass.
Det er mulig at modellen bare ikke har nok data og nok opplæring til å forstå den spesifikke forespørselen om et instrument.
Vokal er ute av ligningen
I henhold til restriksjonene på den tiden, ville ikke modellen produsere musikk som inneholder vokal. MusicLMs vanskelige opphavsrettsproblemer og buggy vokal er en sannsynlig faktor for hvorfor Google valgte å spille det trygt ved å sette denne begrensningen.
Men etter å ha eksperimentert med MusicLM en stund, innså vi at Googles kontroll over modellens produksjon ikke akkurat var jernbelagt. Merkelig nok ville en prompt som "akustisk gitar" produsere et spor som inneholdt spøkelseslignende vokal i bakgrunnen som hørtes dempet og fjernt ut.
Selv om dette ikke er en vanlig hendelse, lar det deg undre over MusicLMs evne til å skape overbevisende vokal i utgangspunktet.
Med programvare som VOCALOID og Synthesizer V leder an AI-assistert stemmesynteseteknologi, utelater vokal fra den nåværende modellen oss til å lure på om den ennå ikke er god nok til å konkurrere mot eksisterende teknologi. MusicLM kan godt ha en lang vei å gå før musikere vil synge dens lovsanger.
Fremtiden til AI-musikkgeneratorer
Mens MusicLM har flyttet generativ AI-musikkteknologi fremover, må den tilbake til skolen og lære noen flere ting før den kan ta på seg praktisk arbeid i musikkbransjen.
Før nå var det beste forsøket på generativ AI-musikk en modell kalt JukeboxAI av OpenAI. Den var ikke akkurat klar til bruk, og det tok hele ni timer å gjengi bare ett minutt med musikk.
For innsatsen din ville du sannsynligvis få tilbake et spor som virkelig klingende fremmed, full av lydforvrengning og artefakter. På oppsiden kom du ikke til å kjede deg lytter til de bisarre kreasjonene som Jukebox tryller frem.
I lys av dette har MusicLM gjort noen betydelige fremskritt mot en brukervennlig AI-musikkgenerator. Vi kan nesten tilgi modellen for dens tilfeldige utganger når du tenker på hvor enormt komplisert det er å generere musikk i rå lydform.
Etter å ha satt modellen i arbeid, føler MusicLM seg imidlertid halvferdig sammenlignet med det Google publiserte i sin første forskningsartikkel. Sjelden får en AI-bildegenerator bildet av en Apple feil, på samme måte bør en AI-musikkgenerator få noen grunnleggende ting riktig som tempo og instrumenter.
Googles MusicLM lever ikke opp til forventningene
Med teknologiselskaper som kjemper for å utkonkurrere hverandre på AI-fronten, føles MusicLM som om den gikk inn i offentlige forsøk før den var klar. I stedet for å få det grunnleggende riktig, ser modellen ut til å ha en langt mer vag og subjektiv tilnærming til å produsere musikk.
Google kan oppfordre deg til å være spesifikk med spørsmålet ditt, men det takler ikke tempoet godt, og du er ikke garantert å få instrumentene du ba om hver gang. MusicLM kan være interessant, og en god demonstrasjon av kraftige AI-fremskritt, men hvis musikk er sluttmålet har det fortsatt en lang vei å gå.