Annonse

Hvis du drive en nettside 10 måter å lage et lite og enkelt nettsted uten overskuddWordPress kan være en overkill. Som disse andre utmerkede tjenestene beviser, er ikke WordPress det eneste som gjør en slutt på å lage nettsider. Ønsker du enklere løsninger, finnes det en rekke å velge mellom. Les mer , har du sikkert hørt om en robots.txt-fil (eller "robotekskluderingsstandarden"). Enten du har eller ikke, er det på tide å lære om det, fordi denne enkle tekstfilen er en avgjørende del av nettstedet ditt. Det kan virke ubetydelig, men du kan bli overrasket over hvor viktig det er.

La oss ta en titt på hva en robots.txt-fil er, hva den gjør og hvordan du konfigurerer den riktig for nettstedet ditt.

Hva er en robots.txt-fil?

For å forstå hvordan en robots.txt-fil fungerer, må du vite det litt om søkemotorer Hvordan fungerer søkemotorer?For mange mennesker er Google internett. Det er uten tvil den viktigste oppfinnelsen siden selve Internett. Og selv om søkemotorene har endret seg mye siden, er de underliggende prinsippene fortsatt de samme. Les mer

. Kortversjonen er at de sender ut "crawlere", som er programmer som leter etter informasjon på internett. De lagrer deretter noe av informasjonen slik at de kan henvise folk til den senere.

Disse søkerobotene, også kjent som «bots» eller «edderkopper», finner sider fra milliarder av nettsteder. Søkemotorer gir dem instruksjoner om hvor de skal gå, men individuelle nettsteder kan også kommunisere med robotene og fortelle dem hvilke sider de bør se på.

Mesteparten av tiden gjør de faktisk det motsatte, og forteller dem hvilke sider de bør ikke se på. Ting som administrative sider, backend-portaler, kategori- og tagsider og andre ting som nettstedeiere ikke ønsker skal vises på søkemotorer. Disse sidene er fortsatt synlige for brukere, og de er tilgjengelige for alle som har tillatelse (som ofte er alle).

Men ved å fortelle disse edderkoppene at de ikke skal indeksere noen sider, gjør robots.txt-filen alle en tjeneste. Hvis du søkte etter "MakeUseOf" på en søkemotor, vil du at de administrative sidene våre skal vises høyt i rangeringen? Nei. Det vil ikke hjelpe noen, så vi ber søkemotorer om å ikke vise dem. Den kan også brukes til å hindre søkemotorer fra å sjekke ut sider som kanskje ikke hjelper dem med å klassifisere nettstedet ditt i søkeresultater.

Kort sagt, robots.txt forteller webcrawlere hva de skal gjøre.

Kan robotsøkeprogrammer ignorere robots.txt?

Ignorerer robotsøkeprogrammer noen gang robots.txt-filer? Ja. Faktisk mange crawlere gjøre Ignorer det. Generelt er imidlertid ikke disse søkerobotene fra anerkjente søkemotorer. De er fra spammere, e-posthøstere og andre typer automatiserte roboter Hvordan bygge en grunnleggende webcrawler for å hente informasjon fra et nettstedHar du noen gang ønsket å fange informasjon fra et nettsted? Slik skriver du en crawler for å navigere på et nettsted og trekke ut det du trenger. Les mer som streifer rundt på internett. Det er viktig å ha dette i bakhodet - bruk av robotekskluderingsstandarden for å fortelle roboter å holde seg unna er ikke et effektivt sikkerhetstiltak. Faktisk kan noen roboter start med sidene du forteller dem ikke å gå til.

Søkemotorer vil imidlertid gjøre som robots.txt-filen sier så lenge den er riktig formatert.

Hvordan skrive en robots.txt-fil

Det er noen forskjellige deler som går inn i en standardfil for eksklusjon av roboter. Jeg vil dele dem ned hver for seg her.

Brukeragenterklæring

Før du forteller en bot hvilke sider den ikke skal se på, må du spesifisere hvilken bot du snakker med. Mesteparten av tiden vil du bruke en enkel erklæring som betyr "alle roboter." Det ser slik ut:

Bruker agent: *

Stjernen står for "alle roboter." Du kan imidlertid spesifisere sider for visse roboter. For å gjøre det, må du vite navnet på boten du legger retningslinjer for. Det kan se slik ut:

Brukeragent: Googlebot. [liste over sider som ikke skal gjennomgås] Brukeragent: Googlebot-Image/1.0. [liste over sider som ikke skal gjennomgås] Brukeragent: Bingbot. [liste over sider som ikke skal gjennomgås]

Og så videre. Hvis du oppdager en bot som du ikke vil skal gjennomsøke nettstedet ditt i det hele tatt, kan du spesifisere det også.

For å finne navnene på brukeragenter, sjekk ut useragentstring.com [Ikke lenger tilgjengelig].

Forbyr sider

Dette er hoveddelen av robotekskluderingsfilen din. Med en enkel erklæring forteller du en bot eller gruppe av roboter om ikke å gjennomsøke bestemte sider. Syntaksen er enkel. Slik vil du nekte tilgang til alt i "admin"-katalogen på nettstedet ditt:

Disallow: /admin/

Den linjen ville hindre roboter fra å gjennomsøke yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html og alt annet som faller inn under admin-katalogen.

For å ikke tillate en enkelt side, spesifiser den i ikke-tillat-linjen:

Disallow: /public/exception.html

Nå vil ikke "unntak"-siden trekkes, men alt annet i "offentlig"-mappen vil.

For å inkludere flere kataloger eller sider, bare oppgi dem på påfølgende linjer:

Disallow: /privat/ Disallow: /admin/ Disallow: /cgi-bin/ Disallow: /temp/

Disse fire linjene vil gjelde for den brukeragenten du spesifiserte øverst i delen.

Hvis du vil forhindre at roboter ser på en side på nettstedet ditt, bruk dette:

Disallow: /

Sette forskjellige standarder for bots

Som vi så ovenfor, kan du spesifisere visse sider for forskjellige roboter. Ved å kombinere de to foregående elementene, ser det slik ut:

Brukeragent: googlebot. Disallow: /admin/ Disallow: /private/ Brukeragent: bingbot. Disallow: /admin/ Disallow: /privat/ Disallow: /secret/

"Admin" og "privat"-seksjonene vil være usynlige på Google og Bing, men Google vil se den "hemmelige" katalogen, mens Bing ikke vil.

Du kan spesifisere generelle regler for alle roboter ved å bruke asterisk-brukeragenten, og deretter gi spesifikke instruksjoner til roboter i påfølgende seksjoner også.

Sette alt sammen

Med kunnskapen ovenfor kan du skrive en fullstendig robots.txt-fil. Bare fyr opp favoritttekstredigeringsprogrammet ditt (vi er fans av Sublime 11 sublime teksttips for produktivitet og en raskere arbeidsflytSublime Text er en allsidig tekstredigerer og en gullstandard for mange programmerere. Våre tips fokuserer på effektiv koding, men generelle brukere vil sette pris på hurtigtastene. Les mer rundt her) og begynn å fortelle roboter at de ikke er velkomne i visse deler av nettstedet ditt.

Hvis du vil se et eksempel på en robots.txt-fil, kan du gå til et hvilket som helst nettsted og legge til "/robots.txt" til slutt. Her er en del av Giant Bicycles robots.txt-filen:

gigantisk robots.txt-fil

Som du kan se, er det ganske mange sider som de ikke vil skal vises på søkemotorer. De har også inkludert et par ting vi ikke har snakket om ennå. La oss ta en titt på hva annet du kan gjøre i robotekskluderingsfilen din.

Finne ditt områdekart

Hvis robots.txt-filen din forteller roboter hvor ikke å gå, din sitemap gjør det motsatte Hvordan lage et XML-nettstedskart i 4 enkle trinnDet finnes to typer nettstedskart - HTML-side eller en XML-fil. Et HTML-nettkart er en enkelt side som viser besøkende alle sidene på et nettsted og har vanligvis lenker til disse... Les mer , og hjelper dem å finne det de leter etter. Og selv om søkemotorer sannsynligvis allerede vet hvor områdekartet ditt er, skader det ikke å gi dem beskjed igjen.

Erklæringen for en stedskartplassering er enkel:

Nettstedkart: [URL til nettstedskart]

Det er det.

I vår egen robots.txt-fil ser det slik ut:

Nettstedkart: //www.makeuseof.com/sitemap_index.xml

Det er alt som skal til.

Stille inn en Crawl Delay

Gjennomgangsforsinkelsesdirektivet forteller visse søkemotorer hvor ofte de kan indeksere en side på nettstedet ditt. Det måles i sekunder, selv om noen søkemotorer tolker det litt annerledes. Noen ser på en crawl-forsinkelse på 5 som ber dem vente fem sekunder etter hver crawl for å starte den neste. Andre tolker det som en instruksjon om å bare gjennomgå én side hvert femte sekund.

Hvorfor vil du fortelle en crawler om ikke å krype så mye som mulig? Til bevare båndbredden 4 måter Windows 10 kaster bort Internett-båndbredden dinKaster Windows 10 bort internettbåndbredden din? Her er hvordan du sjekker, og hva du kan gjøre for å stoppe det. Les mer . Hvis serveren din sliter med å holde tritt med trafikken, kan det være lurt å sette i gang en gjennomsøkingsforsinkelse. Generelt trenger de fleste ikke å bekymre seg for dette. Store nettsteder med høy trafikk kan imidlertid være lurt å eksperimentere litt.

Slik angir du en crawl-forsinkelse på åtte sekunder:

Crawl-forsinkelse: 8

Det er det. Ikke alle søkemotorer vil følge direktivet ditt. Men det skader ikke å spørre. Som med å nekte sider, kan du angi forskjellige gjennomsøkingsforsinkelser for bestemte søkemotorer.

Laster opp robots.txt-filen

Når du har konfigurert alle instruksjonene i filen din, kan du laste den opp til nettstedet ditt. Sørg for at det er en ren tekstfil og har navnet robots.txt. Deretter laster du det opp til nettstedet ditt slik at det kan finnes på yoursite.com/robots.txt.

Hvis du bruker en system for innholdshåndtering 10 mest populære innholdsstyringssystemer på nettetDagene med håndkodede HTML-sider og mestring av CSS er for lengst forbi. Installer et innholdsstyringssystem (CMS) og i løpet av få minutter kan du ha et nettsted å dele med verden. Les mer som WordPress, er det sannsynligvis en spesifikk måte du må gjøre dette på. Fordi det er forskjellig i hvert innholdsstyringssystem, må du se dokumentasjonen for systemet ditt.

Noen systemer kan også ha nettbaserte grensesnitt for å laste opp filen din. For disse, kopier og lim inn filen du opprettet i de forrige trinnene.

Husk å oppdatere filen din

Det siste rådet jeg vil gi er å av og til se over robotekskluderingsfilen din. Nettstedet ditt endres, og du må kanskje gjøre noen justeringer. Hvis du legger merke til en merkelig endring i søkemotortrafikken din, er det en god idé å sjekke ut filen også. Det er også mulig at standardnotasjonen kan endres i fremtiden. Som alt annet på nettstedet ditt, er det verdt å sjekke det innimellom.

Hvilke sider ekskluderer du crawlere fra på nettstedet ditt? Har du lagt merke til noen forskjell i søkemotortrafikken? Del dine råd og kommentarer nedenfor!

Dann er en innholdsstrategi og markedskonsulent som hjelper bedrifter med å generere etterspørsel og potensielle kunder. Han blogger også om strategi og innholdsmarkedsføring på dannalbright.com.