Bekymret for AI-chatboter som skraper nettstedet ditt for innhold? Heldigvis kan du blokkere dem fra å gjøre det. Dette er hvordan.

Slik situasjonen er, har AI-chatbots en gratis lisens til å skrape nettstedet ditt og bruke innholdet uten din tillatelse. Bekymret for at innholdet ditt blir skrapet av slike verktøy?

Den gode nyheten er at du kan stoppe AI-verktøy fra å få tilgang til nettstedet ditt, men det er noen forbehold. Her viser vi deg hvordan du blokkerer robotene ved å bruke robots.txt-filen for nettstedet ditt, pluss fordeler og ulemper ved å gjøre det.

Hvordan får AI Chatbots tilgang til nettinnholdet ditt?

AI-chatboter trenes opp ved hjelp av flere datasett, hvorav noen er åpen kildekode og offentlig tilgjengelig. For eksempel ble GPT3 trent ved hjelp av fem datasett, ifølge en forskningsartikkel publisert av OpenAI:

  1. Common Crawl (60 % vekt under trening)
  2. WebText2 (22 % vekt i trening)
  3. Books1 (8 % vekt i trening)
  4. Books2 (8 % vekt i trening)
  5. Wikipedia (3 % vekt i trening)

Vanlig kryp

instagram viewer
inkluderer petabyte (tusenvis av TB) med data fra nettsteder samlet inn siden 2008, på samme måte som hvordan Googles søkealgoritme gjennomsøker nettinnhold. WebText2 er et datasett laget av OpenAI, og inneholder omtrent 45 millioner nettsider lenket til fra Reddit-innlegg med minst tre oppstemmer.

Så, når det gjelder ChatGPT, får ikke AI-boten tilgang til og gjennomsøker nettsidene dine direkte – ikke ennå, uansett. Skjønt, OpenAI's kunngjøring av en ChatGPT-vertsbasert nettleser har reist bekymring for at dette kan være i ferd med å endre seg.

I mellomtiden bør nettstedeiere holde et øye med andre AI-chatboter, ettersom flere av dem kommer på markedet. Bard er det andre store navnet på feltet, og det er svært lite kjent om datasettene som brukes til å trene den. Selvfølgelig vet vi at Googles søkeroboter stadig gjennomsøker nettsider, men dette betyr ikke nødvendigvis at Bard har tilgang til de samme dataene.

Hvorfor er enkelte nettstedeiere bekymret?

Den største bekymringen for nettstedeiere er at AI-roboter som ChatGPT, Bard og Bing Chat devaluerer innholdet deres. AI-roboter bruker eksisterende innhold for å generere svar, men reduserer også behovet for brukere for å få tilgang til den opprinnelige kilden. I stedet for at brukere besøker nettsteder for å få tilgang til informasjon, kan de ganske enkelt få Google eller Bing til å generere et sammendrag av informasjonen de trenger.

Når det gjelder AI chatbots i søk, er den store bekymringen for nettstedeiere å miste trafikk. Når det gjelder Bard, AI-boten inkluderer sjelden sitater i sine generative svar, og forteller brukerne hvilke sider den får informasjonen fra.

Så bortsett fra å erstatte nettstedbesøk med AI-svar, fjerner Bard nesten enhver sjanse for at kildenettstedet skal motta trafikk – selv om brukeren ønsker mer informasjon. Bing Chat, derimot, lenker oftere til informasjonskilder.

Med andre ord, den nåværende flåten av generative AI-verktøy er ved å bruke arbeidet til innholdsskapere å systematisk erstatte behovet for innholdsskapere. Til syvende og sist må du spørre hvilket insentiv dette gir nettstedeiere for å fortsette å publisere innhold. Og i forlengelsen, hva skjer med AI-roboter når nettsteder slutter å publisere innholdet de er avhengige av for å fungere?

Slik blokkerer du AI-bots fra nettstedet ditt

Hvis du ikke vil at AI-roboter skal bruke nettinnholdet ditt, kan du blokkere dem fra å få tilgang til nettstedet ditt ved å bruke robots.txt fil. Dessverre må du blokkere hver enkelt bot og spesifisere dem ved navn.

Common Crawls bot kalles for eksempel CCBot, og du kan blokkere den ved å legge til følgende kode i robots.txt-filen din:

Brukeragent: CCBot
Ikke tillat: /

Dette vil blokkere Common Crawl fra å gjennomsøke nettstedet ditt i fremtiden, men det vil ikke fjerne data som allerede er samlet inn fra tidligere gjennomsøkinger.

Hvis du er bekymret for at ChatGPTs nye plugins får tilgang til nettinnholdet ditt, har OpenAI allerede publisert instruksjoner for blokkering av boten. I dette tilfellet kalles ChatGPTs bot ChatGPT-User, og du kan blokkere den ved å legge til følgende kode i robots.txt-filen din:

Brukeragent: ChatGPT-bruker
Ikke tillat: /

Å blokkere AI-roboter for søkemotorer fra å gjennomsøke innholdet ditt er et helt annet problem. Siden Google er svært hemmelighetsfull om treningsdataene den bruker, er det umulig å identifisere hvilke roboter du må blokkere og om de til og med vil respektere kommandoer i robots.txt fil (mange robotsøkeprogrammer gjør det ikke).

Hvor effektiv er denne metoden?

Blokkering av AI-roboter i din robots.txt fil er den mest effektive metoden som er tilgjengelig for øyeblikket, men den er ikke spesielt pålitelig.

Det første problemet er at du må spesifisere hver bot du vil blokkere, men hvem kan holde styr på hver AI-bot som treffer markedet? Det neste problemet er at kommandoer i din robots.txt filen er ikke-obligatoriske instruksjoner. Mens Common Crawl, ChatGPT og mange andre roboter respekterer disse kommandoene, gjør ikke mange roboter det.

Det andre store forbeholdet er at du bare kan blokkere AI-roboter fra å utføre fremtidige gjennomganger. Du kan ikke fjerne data fra tidligere gjennomganger eller sende forespørsler til selskaper som OpenAI om å slette alle dataene dine.

Dessverre er det ingen enkel måte å blokkere alle AI-roboter fra å få tilgang til nettstedet ditt, og det er nesten umulig å blokkere hver enkelt bot manuelt. Selv om du holder tritt med de nyeste AI-robotene som streifer rundt på nettet, er det ingen garanti for at de alle vil følge kommandoene i robots.txt fil.

Det virkelige spørsmålet her er om resultatene er verdt innsatsen, og det korte svaret er (nesten sikkert) nei.

Det er potensielle ulemper ved å blokkere AI-roboter fra nettstedet ditt også. Mest av alt vil du ikke kunne samle inn meningsfulle data for å bevise om verktøy som Bard drar nytte av eller skader søkemarkedsføringsstrategien din.

Ja, du kan anta at mangel på siteringer er skadelig, men du gjetter bare om du mangler dataene fordi du blokkerte AI-roboter fra å få tilgang til innholdet ditt. Det var en lignende historie da Google først introduserte utvalgte utdrag å søke.

For relevante søk viser Google et utdrag av innhold fra nettsider på resultatsiden, og svarer på brukerens spørsmål. Dette betyr at brukere ikke trenger å klikke seg videre til et nettsted for å få svaret de leter etter. Dette skapte panikk blant nettstedeiere og SEO-eksperter som er avhengige av å generere trafikk fra søk.

Den typen søk som utløser utvalgte tekstutdrag er imidlertid generelt lavverdisøk som «hva er X» eller «hvordan er været i New York». Alle som vil ha dybdeinformasjon eller en omfattende værmelding kommer fortsatt til å klikke seg gjennom, og de som ikke gjør det, var aldri så verdifulle i utgangspunktet.

Du finner kanskje ut at det er en lignende historie med generative AI-verktøy, men du trenger dataene for å bevise det.

Ikke skynd deg inn i noe

Nettstedseiere og utgivere er forståelig nok bekymret for AI-teknologi og frustrert over ideen om roboter som bruker innholdet deres til å generere umiddelbare svar. Dette er imidlertid ikke tiden for å skynde seg inn i motoffensive trekk. AI-teknologi er et felt i rask bevegelse, og ting vil fortsette å utvikle seg i et raskt tempo. Benytt anledningen til å se hvordan ting utspiller seg og analyser de potensielle truslene og mulighetene AI bringer til bordet.

Det nåværende systemet med å stole på innholdsskapernes arbeid for å erstatte dem er ikke bærekraftig. Enten selskaper som Google og OpenAI endrer tilnærming eller regjeringer innfører nye reguleringer, må noe gi. Samtidig blir de negative implikasjonene av AI-chatbots på innholdsskaping stadig tydeligere, som nettstedeiere og innholdsskapere kan bruke til sin fordel.