Forhindre at nettstedet ditt blir skrapet av OpenAIs crawlere ved hjelp av denne veiledningen.
Mens brukere elsker ChatGPT for den store mengden informasjon den har for øyeblikket, kan det samme ikke sies om nettstedeiere.
OpenAIs ChatGPT bruker crawlere til å skrape nettsteder, men hvis du er en nettstedseier, og du ikke vil at OpenAIs crawler skal få tilgang til nettstedet ditt, er det noen ting du kan gjøre for å forhindre det.
Hvordan fungerer OpenAI Crawling?
EN webcrawler (også kjent som en edderkopp eller en søkemotorbot) er et automatisert program som skanner internett for informasjon. Den samler deretter informasjonen på en måte som er lett for søkemotoren å få tilgang til den.
Webcrawlere indekserer hver side av hver relevante URL, og fokuserer vanligvis på nettsteder som er mer relevante for søkene dine. La oss for eksempel anta at du googler en bestemt Windows-feil. Webcrawleren i søkemotoren din vil skanne alle nettadressene fra nettsteder som den anser som mer autoritative når det gjelder Windows-feil.
OpenAIs webcrawler heter GPTBot, og iht OpenAIs dokumentasjon, å gi GPTBot-tilgang til nettstedet ditt kan bidra til å trene opp AI-modellen til å bli tryggere og mer nøyaktig, og det kan til og med bidra til å utvide AI-modellens muligheter.
Hvordan forhindre at OpenAI gjennomsøker nettstedet ditt
Som de fleste andre webcrawlere, kan GPTBot blokkeres fra å få tilgang til nettstedet ditt ved å endre nettstedets robots.txt protokoll (også kjent som robotekskluderingsprotokollen). Denne .txt-filen ligger på nettstedets server, og den kontrollerer hvordan webcrawlere og andre automatiserte programmer oppfører seg på nettstedet ditt.
Her er en kort liste over hva robot.txt fil kan gjøre:
- Det kan fullstendig blokkere GPTBot fra å få tilgang til nettstedet.
- Den kan blokkere bare visse sider fra en URL fra å bli åpnet av GPTBot.
- Den kan fortelle GPTBot hvilke koblinger den kan følge, og hvilke den ikke kan.
Slik kontrollerer du hva GPTBot kan gjøre på nettstedet ditt:
Blokker GPTBot fullstendig fra å få tilgang til nettstedet ditt
- Sett opp robot.txt-filen, og rediger den med et hvilket som helst tekstredigeringsverktøy.
- Legg til GPTBot til nettstedet ditt robots.txt følgende:
User-agent: GPTBot
Disallow: /
Blokker bare enkelte sider fra å bli åpnet av GPTBot
- Sett opp robot.txt fil, og rediger den deretter med ditt foretrukne tekstredigeringsverktøy.
- Legg til GPTBot til nettstedet ditt robots.txt følgende:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Men husk at å endre robot.txt fil er ikke en tilbakevirkende løsning, og all informasjon som GPTBot allerede har samlet inn fra nettstedet ditt vil ikke kunne gjenopprettes.
OpenAI lar nettstedeiere velge bort crawling
Helt siden crawlere har blitt brukt til å trene AI-modeller, har nettstedeiere lett etter måter å holde dataene sine private.
Noen frykter at AI-modeller i bunn og grunn stjeler arbeidet deres, og tilskriver til og med færre nettstedbesøk det faktum at nå brukere får informasjonen deres uten å måtte besøke nettsidene deres.
Alt i alt, om du vil blokkere AI chatbots fra å skanne nettsidene dine, er helt ditt valg.