Kunstig intelligens-modeller som ChatGPT og Bard trenes ved hjelp av data laget av mennesker. Jo mer data de får i seg, jo smartere blir de til å imitere menneskelig intelligens og kreativitet. Store aktører i AI-bransjen, som OpenAI og Meta, har implementert store språkmodeller som er trent ved å skrape tekst og bøker tilgjengelig på nettet for å trekke ut data.

På grunn av hvordan LLM-er er trent, var det uunngåelig at det ville være en konflikt mellom lov om opphavsrett og kunstig intelligens. Nå kommer kyllingene hjem for å hvile, mens Sarah Silverman og andre artister saksøker OpenAI og Meta for brudd på opphavsretten.

I et gruppesøksmål [PDF] arkivert i California, komiker Sarah Silverman og andre forfattere (Christopher Golden og Richard Kadrey) søker å få tilbake erstatning mot OpenAI og Meta for brudd på opphavsrett. Søksmålet hevder at OpenAI og Meta har skrapet opphavsrettsbeskyttede bøker fra piratnettsteder for å trene AI-modellene deres. Dette tilsvarer en AI-modell som laster ned sine treningsdatasett fra Piratebay uten å kompensere forfatterne.

Tilfeldigvis, a separat gruppesøksmål [PDF] mot OpenAI hevder at selskapet brukte uautorisert privat informasjon for å trene ChatGPT. Google står også overfor et lignende søksmål for angivelig bruk av stjålne data for å trene Google Bard. Det er derfor du bør gjør det til en vane å beskytte dine personlige opplysninger, selv om publisering av arbeid og private personopplysninger ikke er det samme.

Hva er sjansene for at Sarah Silverman kan vinne søksmålet?

Bildekreditt: freepik

Silverman og andre artister hevder at ChatGPT kan oppsummere bøkene deres nøyaktig når de blir bedt om det. Klagen hevder at det ikke ville vært mulig hvis AI-modellen ikke hadde tilgang til det opphavsrettsbeskyttede materialet. Men hvis ChatGPT ble trent ved å bruke milliarder av internetttekster, kom den sannsynligvis over artikler, kommentarer og innlegg på sosiale medier som diskuterte bøkene.

Videre avslørte Meta hvor de kjøpte bøkene den brukte til å trene AI-modellen sin – kilden ble sporet til et e-boktorrentnettsted. På samme måte nevner gruppesøksmålet mot OpenAI også ulovlige nettsteder der OpenAI mistenkes å ha skaffet seg det opphavsrettsbeskyttede materialet, men OpenAI har ennå ikke bekreftet kildene.

Hvis det er bevist at OpenAI og Meta brukte ulovlige torrent-nettsteder for å skaffe opphavsrettsbeskyttet materiale for å trene sine AI-modeller, kan Silverman ha en sjanse til å vinne søksmålet. Imidlertid er AI-modeller ukjent territorium uten presedens for domstoler å stole på for å avgjøre basert på AI-opphavsrettsbrudd. Det er faktisk en av grunnene EU foreslo en AI-lov.

Hva er fremtiden til AI-modeller og lov om opphavsrett?

Vi er fortsatt i begynnelsen av AI for å vite hvordan den vil tilpasse seg opphavsrettsloven. Det er enda mer komplisert å prøve å finne ut av det som eier opphavsretten til AI-skaping. Men for menneskelige skapere finnes det regler for å beskytte dem mot at noen andre får tilgang til deres opphavsrettsbeskyttede materiale uten kompensasjon, samtykke eller kreditt. Hvis reglene eksisterer for mennesker, vil de gjelde for AI-modeller?

EU-parlamentet utarbeidet det nærmeste glimtet inn i fremtiden av hvordan AI-modeller vil overholde opphavsrettsloven. Hvis EU AI-loven blir godkjent i loven, vil AI-modeller som ChatGPT og Bard bli pålagt å publisere alle sine datasettkilder og opphavsrettsbeskyttede data som brukes til opplæring. Dette vil bidra til å oppklare enhver forvirring hvis AI-modellene fikk tilgang til opphavsrettsbeskyttede bøker, filmer, musikk og bilder for opplæring gjennom ulovlige piratkopieringsnettsteder.

Kjennelsen til AI-gruppesøksmål vil danne en juridisk presedens

Store språkmodeller kan skrape alle hjørnene av internett for data som brukes i trening. Men vil de være ansvarlige for brudd på opphavsretten hvis de går inn på ulovlige torrent-nettsteder for å skaffe data? Og hvis de gjør det, kan du bevise det?

Uavhengig av utfallet vil gruppesøksmålene mot teknologiselskapene som eier de mest populære AI-modellene skape en presedens som vil være relevant i fremtiden.