GPTBot er sannsynligvis ikke det du tror.

Viktige takeaways

  • OpenAIs GPTBot er en webcrawler designet for å samle data fra offentlige nettsteder, som deretter brukes til å trene og forbedre AI-modeller som GPT-4 og ChatGPT.
  • Noen av de største nettstedene på internett blokkerer GPTBot fordi den får tilgang til og bruker opphavsrettsbeskyttet innhold uten tillatelse eller kompensasjon til skaperne.
  • Selv om nettsteder kan bruke verktøy som robots.txt for å prøve å blokkere GPTBot, er det ingen garantier for at OpenAI vil overholde, noe som gir dem kontroll over tilgang til opphavsrettsbeskyttet data.

I august 2023 annonserte OpenAI, AI-kraftverket som er kreditert med utviklingen av ChatGPT, GPTBot, en webcrawler designet for å krysse nettet og samle data.

Ikke lenge etter den kunngjøringen blokkerte noen av de største nettstedene på internett boten fra å få tilgang til nettstedet deres. Men hvorfor? Hva er OpenAIs GPTBot? Hvorfor er de store nettstedene redde for det, og hvorfor prøver de å blokkere det?

Hva er OpenAIs GPTBot?

GPTBot er en webcrawler laget av OpenAI for å søke på internett og samle informasjon for OpenAIs AI-utviklingsmål. Den er programmert til å gjennomsøke offentlige nettsteder og sende dataene tilbake til OpenAI sine servere. OpenAI bruker deretter disse dataene til å trene og forbedre sine AI-modeller, med mål om å bygge stadig mer avanserte kunstig intelligens-systemer. For å bygge sofistikerte AI-modeller som GPT-4 eller underordnede produkter som ChatGPT, er webcrawlere nesten uunnværlige.

Trening av en AI-modell krever en enorm mengde data, og en av de mest effektive måtene å samle disse dataene på er ved å distribuere verktøy som webcrawlere. Crawlere kan systematisk surfe på nettet, følge lenker for å indeksere store mengder nettsider og trekke ut nøkkeldata som tekst, bilder og metadata som samsvarer med et forhåndsdefinert mønster.

Disse dataene kan deretter struktureres og mates inn i AI-modeller for å trene deres naturlige språkbehandlingsevner eller bildegenereringsevner eller trene dem for andre AI-oppgaver. I orden, samler webcrawlere data som gjør det mulig for verktøy som ChatGPT eller DALL-E å gjøre det de gjør.

Webcrawlere er ikke et nytt konsept. Det er sannsynligvis millioner av dem som gjennomsøker de milliarder av nettsteder som er tilgjengelige på internett i dag. Og de har eksistert siden tidlig på 90-tallet. GPTBot er bare en av slike robotsøkeprogrammer som eies av OpenAI. Så, hva er årsaken til kontroversen rundt denne nettsøkeroboten?

Hvorfor blokkerer store tekniske nettsteder GPTBot?

I følge Business Insider, blokkerer noen av de største nettstedene på internett aktivt OpenAIs crawler på nettsiden deres. Så hvis det endelige målet med GPTBot er å fremme AI-utvikling, hvorfor er noen av de største nettstedene på internett, hvorav noen har dratt nytte av AI på en eller annen måte, imot det?

Vel, her er saken. Siden gjenoppblomstringen av generative AI-teknologier i 2022 har det vært mange debatter om retten til AI-selskaper til å bruke, nesten uten grenser, data hentet fra internett, hvorav en betydelig del er juridisk beskyttet av opphavsrett. Ingen klare lover styrer hvordan disse selskapene samler inn og bruker data for egen vinning.

Så i utgangspunktet gjennomsøker robotsøkeprogrammer som GPTBot nettet, griper folks kreative arbeid i form av tekst, bilder eller andre former for media, og bruke det til kommersielle formål uten å innhente tillatelse, lisensiering eller gi kompensasjon til originalen skapere.

Det er et ville vesten der ute, og AI-selskaper tar tak i det de kan få tak i. Store nettsteder som Quora, CNN, New York Times, Business Insider og Amazon er ikke veldig fornøyd med at deres opphavsrettsbeskyttet innhold høstes av disse søkerobotene, slik at OpenAI kan få økonomisk fordel av det hos dem kostnader.

Det er derfor disse nettstedene implementerer «robots.txt», en flere tiår gammel metode for å blokkere webcrawlere. I følge OpenAI, vil GPTBot adlyde instruksjoner for å gjennomsøke eller unngå å gjennomsøke nettsteder basert på reglene som er innebygd i robots.txt, en liten tekstfil som forteller webcrawlere hvordan de skal oppføre seg på et nettsted. Hvis du har et eget nettsted og gjerne vil stoppe GPTBot fra å hente dataene dine, er det slik du kan blokkere OpenAIs søkeroboter fra å skrape nettstedet ditt.

Kan nettsteder virkelig stoppe GPTBot?

Mens crawlere som GPTBot er uunnværlige for å samle de enorme datamengdene som kreves for å trene avanserte AI-systemer, er det gyldige bekymringer rundt opphavsrett og rettferdig bruk som ikke kan være det ignorert.

Jada, det finnes enkle verktøy som robots.txt som kan brukes til å beskytte seg mot dette, men hvorvidt GPTBot følger instruksjonene på denne filen er helt opp til OpenAIs skjønn. Det er ingen garantier for at de vil gjøre det, og det er ingen umiddelbar idiotsikker måte å fortelle om de har gjort det. I kampen for å holde GPTBot unna opphavsrettsbeskyttede data, har OpenAI essene, i det minste foreløpig.