Hva er en webcrawler/edderkopp og hvordan fungerer det?

Søkemotorer som Google er en del av det som gjør internett så kraftig. Med noen få tastetrykk og et klikk på en knapp, vises de mest relevante svarene på spørsmålet ditt. Men har du noen gang lurt på hvordan søkemotorer fungerer? Webcrawlere er en del av svaret.

Så, hva er en webcrawler, og hvordan fungerer det?

Hva er en webcrawler?

Pixabay - ingen attribusjon nødvendig

Når du søker etter noe i en søkemotor, må motoren raskt skanne millioner (eller milliarder) nettsider for å vise de mest relevante resultatene. Webcrawlers (også kjent som edderkopper eller søkemotorbots) er automatiserte programmer som "gjennomsøker" internett og samler informasjon om nettsider på en lett tilgjengelig måte.

Ordet "crawling" refererer til måten webcrawlere krysser internett. Webcrawlere er også kjent som "edderkopper". Dette navnet kommer fra måten de gjennomsøker nettet på - som hvordan edderkopper kryper på edderkoppnettene sine.

Webcrawlere vurderer og kompilerer data på så mange nettsider som mulig. De gjør dette slik at dataene er lett tilgjengelige og søkbare, og derfor er de så viktige for søkemotorer.

instagram viewer

Tenk på en webcrawler som redaktøren som utarbeider indeksen på slutten av boken. Jobben til indeksen er å informere leseren om hvor i boken hvert hovedemne eller setning vises. På samme måte oppretter en webcrawler en indeks som en søkemotor bruker for å finne relevant informasjon om et søk raskt.

Hva er søkindeksering?

Som vi har nevnt, er søkindeksering sammenlignbar med å kompilere indeksen bakerst i en bok. På en måte er søkindeksering som å lage et forenklet kart over internett. Når noen stiller et spørsmål til en søkemotor, kjører søkemotoren den gjennom indeksen, og de mest relevante sidene vises først.

Men hvordan vet søkemotoren hvilke sider som er relevante?

Søkindeksering fokuserer først og fremst på to ting: teksten på siden og metadataene til siden. Teksten er alt du ser som leser, mens metadataene er informasjon om siden som er lagt inn av sideskaperen, kjent som "metakoder". Metakodene inkluderer ting som sidebeskrivelsen og metatittelen, som vises i søk resultater.

Søkemotorer som Google vil indeksere all teksten på en webside (bortsett fra visse ord som "the" og "a" i noen tilfeller). Når et term blir søkt inn i søkemotoren, vil det raskt lete indeksen etter den mest relevante siden.

Hvordan fungerer en webcrawler?

Pixabay - ingen attribusjon nødvendig

En webcrawler fungerer som navnet antyder. De starter på en kjent nettside eller URL og indekserer hver side på denne URL -en (mesteparten av tiden ber nettstedseiere søkemotorer om å gjennomsøke bestemte URL -er). Etter hvert som de støter på hyperkoblinger på disse sidene, vil de lage en "gjøremål" -liste over sider som de vil gjennomsøke neste. Webcrawler vil fortsette dette på ubestemt tid, etter bestemte regler om hvilke sider som skal gjennomsøkes og hvilke som skal ignoreres.

Webcrawlere gjennomsøker ikke hver side på internett. Faktisk er det anslått at bare 40-70% av internett har blitt indeksert i søk (som fortsatt er milliarder av sider). Mange webcrawlere er designet for å fokusere på sider som antas å være mer "autoritative". Autoritær sider passer til en håndfull kriterier som gjør det mer sannsynlig at de inneholder høy kvalitet eller populær informasjon. Webcrawlere må også konsekvent besøke sider etter hvert som de oppdateres, fjernes eller flyttes.

En siste faktor som styrer hvilke sider en webcrawler vil gjennomsøke, er robots.txt -protokollen eller protokollen for ekskludering av roboter. En websides server vil være vert for en robots.txt -fil som beskriver reglene for enhver webcrawler eller andre programmer som får tilgang til siden. Filen vil utelukke bestemte sider fra å bli gjennomsøkt og hvilke lenker søkeroboten kan følge. Et formål med robots.txt -filen er å begrense belastningen som roboter legger på nettstedets server.

For å forhindre at en webcrawler får tilgang til bestemte sider på nettstedet ditt, kan du legge til "disallow" -taggen via robots.txt -fil eller legg til noindex metatag til den aktuelle siden.

Hva er forskjellen mellom kravling og skraping?

Webskraping er bruk av bots for å laste ned data fra et nettsted uten nettstedet tillatelse. Ofte brukes webskraping av ondsinnede årsaker. Webskraping tar ofte all HTML -koden fra bestemte nettsteder, og mer avanserte skrapere vil også ta CSS- og JavaScript -elementene. Webskrapingsverktøy kan brukes til raskt og enkelt å samle informasjon om bestemte emner (si en produktliste), men kan også vandre inn grå og ulovlige territorier.

Webcrawl er derimot indeksering av informasjon på nettsteder med tillatelse, slik at den enkelt kan vises i søkemotorer.

Webcrawler -eksempler

Hver større søkemotor har en eller flere webcrawlere. For eksempel:

Google har Googlebot
Bing har Bingbot
DuckDuckGo har DuckDuckBot.

Større søkemotorer som Google har spesifikke roboter for forskjellige fokus, inkludert Googlebot -bilder, Googlebot -videoer og AdsBot.

Hvordan påvirker webcrawling SEO?

Pixabay - ingen attribusjon nødvendig

Hvis du vil at siden din skal vises i søkemotorresultater, må siden være tilgjengelig for webcrawlere. Avhengig av nettstedstjeneren din, vil du kanskje tildele en bestemt frekvens for gjennomsøking, hvilke sider søkeroboten skal skanne og hvor mye press de kan legge på serveren din.

I utgangspunktet vil du at webcrawlere skal finpusse sider som er fylt med innhold, men ikke på sider som takkemeldinger, administrasjonssider og interne søkeresultater.

Informasjon på fingertuppene

Bruk av søkemotorer har blitt en annen natur for de fleste av oss, men de fleste av oss aner ikke hvordan de fungerer. Webcrawlere er en av hoveddelene i en effektiv søkemotor og indekserer effektivt informasjon om millioner av viktige nettsteder hver dag. De er et uvurderlig verktøy for både nettstedseiere, besøkende og søkemotorer.

DelekvitringE -post

Programmering vs. Webutvikling: Hva er forskjellen?

Du tror kanskje applikasjonsprogrammerere og webutviklere gjør den samme jobben, men det er langt fra sannheten. Her er de viktigste forskjellene mellom programmerere og webutviklere.

Les neste

Relaterte temaer

Teknologi forklart
Nettsøk
Google søk
Søketriks

Om forfatteren

Jake Harfield (25 artikler publisert)

Jake Harfield er en frilansskribent med base i Perth, Australia. Når han ikke skriver, er han vanligvis ute i bushen og fotograferer lokalt dyreliv. Du kan besøke ham på www.jakeharfield.com

Mer fra Jake Harfield

Abonner på vårt nyhetsbrev

Bli med i vårt nyhetsbrev for tekniske tips, anmeldelser, gratis ebøker og eksklusive tilbud!

Klikk her for å abonnere

About Technology - denizatm.com

Hva er en webcrawler/edderkopp og hvordan fungerer det?