Nettskraping innebærer innsamling av informasjon i form av data fra nettsteder eller sider. Selv om din kanskje ikke er en bevisst handling, har du også skrapet nettet på en eller annen måte mens du samlet inn informasjon. Men det er vanligvis subtilt.

Nettskraping eller skjermskraping er generelt en målrettet handling, og fagfolk automatiserer designet for å få enorme data. Enten ved å kopiere tekster på et nettsted manuelt, bruke dedikerte verktøy eller skrive webskrapeskripter, kan nettskrapere noen ganger slå hardt på et nettsted ved å komme med flere forespørsler samtidig.

Men mens mange bedrifter nå utnytter nettskraping for å øke konkurransefortrinn, er det faktisk lovlig?

Hvilke nettsteder bør og bør du ikke skrape?

Internett er en informasjonsmasse som gir folk tilgang til gamle og sanntidsdata. Nettskraping eller skjermskraping har eksistert en stund nå. Men hvor mye skal du bruke det, og hvilke nettsteder kan du skrape?

Noen nettsteder er strenge med web-crawlere eller skjermskraper og blokkerer dem helt. Så det er åpenbart at du ikke skal skrape slike nettsteder. Men folk gjør det fortsatt.

instagram viewer

Dessverre er det knapt noe annet slike nettsteder kan gjøre for å stoppe det, i tillegg til å lappe smutthullene.

Før du skraper et nettsted, bør du sjekke om det tillater gjennomgang eller ikke. Vanligvis kan du finne ut av det ved å sjekke nettstedets robots.txt-fil. Du kan gjøre dette ved å skrive inn "[website URL] /robots.txt".

En robots.txt setter vanligvis regler for forskjellige crawlere eller brukeragenter. Imidlertid varierer disse reglene, avhengig av hvilket nettsted som er involvert. Mens noen nettsteder tillater gjennomsøking på alle sider, spesifiserer noen sidene som en bot kan gjennomsøke, og noen blokkerer gjennomsøkere direkte.

Et nettsted som blokkerer alle brukeragenter fra å gjennomsøke alle sider, setter vanligvis følgende regler:

bruker agent: *
Ikke tillat: /

En robots.txt-fil som blokkerer alle roboter fra å gjennomsøke bestemte kataloger eller sider, ser vanligvis slik ut:

bruker agent: *
Ikke tillat: / URL til side 1
Ikke tillat: / URL til side 2

Hvis robots.txt ikke tillater siden du vil gjennomsøke, kan du sannsynligvis skrape den. Ellers bør du trekke deg tilbake eller søke administratorens samtykke. De kan gi deg tilgang.

I tillegg oppgir noen nettsteder eksplisitt om de tillater gjennomsøking eller ikke i bruksvilkårene. Noen oppgir dette til og med på toppen av robots.txt også. Sjekk alltid det også for å være sikker på at du gjør det rette.

Hvordan nettskraping misbrukes

Så hvis du har mottatt søppelpost eller SMS fra nettsteder eller personer du aldri har oppgitt med din personlige informasjon, så har du sannsynligvis blitt skrapet et eller annet sted. Og for det meste er det via en av dine sosiale medier.

Når det er sagt, er nettskraping noen ganger mer enn bare å samle inn data som gjengis til frontenden. Hvis det brukes skadelig, kan det føre til lekkasje av personlig og klassifisert informasjon.

Mens de fleste sosiale medieplattformer rynker på den, får krypende roboter fortsatt tilgang til folks profiler, og deres kontaktinformasjon blir lekket og skrapet.

Facebook har for eksempel blitt rapportert å ha sårbarheter som har lekket brukernes kontaktinformasjon tidligere, selv om brukerne holder dem private.

På samme måte led LinkedIn nylig et sikkerhetsbrudd som resulterte i lekkasje av personopplysninger tilhører over 500 millioner kontoer. Følgelig resulterte det sårbarheten i deling av mange e-postadresser og telefonnumre uten samtykke fra profileierne.

Er det ulovlig å skrape et nettsted?

Det har aldri vært en konklusjon om lovligheten av nettskraping. I stedet er fokuset på hvordan en crawler fungerer fra sak til sak og hva de bruker de innsamlede dataene for å oppnå.

Så i stedet for å konkludere med lovligheten, er skraping ulovlig når det er gjort ondsinnet. Men hvis det er gjort på en forsvarlig måte, er det ikke ulovlig.

Men som forventet ser det ut til å være en strengere policy for skraping og bruk av sosiale mediedata siden brukernes personvern er så viktig. Det hele koker imidlertid ned til hvordan folk skraper dataene.

De Internet & Social Media Law Blog analyserte saken med hiQ Labs, et dataskrapeselskap som vant en søksmål mot LinkedIn i 2019 etter at det prøvde å blokkere hiQ Labs fra å skrape offentlig tilgjengelige LinkedIn-brukeres data.

Med hiQ Labs som hevder at lov om datamaskinsvindel og misbruk (CFAA) bare forbyr uautorisert tilgang, dom bekreftet at LinkedIn-dataene var offentlig tilgjengelige, så alle som skrapet dem gjorde det fordi de er tilgjengelig.

Dessuten brukte hiQ Labs bare skrapede data til å levere analyseløsninger til selskaper - slik at de kan ta bedre rekrutteringsbeslutninger.

I motsetning til Facebook saksøkte nylig Chrome-utvidelsesutviklere som skrapte Facebook-brukernes profiler uten deres samtykke.

Tilsvarende a copycat-nettstedet ble saksøkt av Facebook for å skrape flere Instagram-brukeres profilinformasjon og deretter bruke disse til å lage kloner. I følge den rapporten gikk Facebook deretter videre for å få et permanent rettsforbud mot lovbryteren.

Dette er noen få tilfeller der folk kan ha brukt nettskraping ulovlig. De nevnte selskapene samlet data fra Facebook-brukere på villedende måte, uten samtykke fra brukerne. Så det brøt med personvernreglene.

Så mens nettskraping kan frustrere nettstedet det får data fra, hindrer ingen generell regel for øyeblikket folk i å få det de vil ha, så lenge de ikke bryter lovene på internett.

Er nettskraping synonymt med hacking?

Det er noen myter rundt nettskraping. En av disse er troen på at skraping av et nettsted betyr at du har hacket det. Selv om hacking til slutt kan føre til skraping av data, er påstanden om at begrepet i seg selv betyr hacking av et nettsted ikke sant.

Nettskraping kan innebære bruk av dedikerte kryp- eller skrapeverktøy, API-er (Application Programming Interfaces), eller webskrapeskripter for å få gjengitte data fra et nettsted. I motsetning til hacking kompromitterer det verken nettstedet det skraper eller forstyrrer brukernes opplevelse.

I slekt: Hva er nettskraping? Hvordan samle inn data fra nettsteder

Så mens hacking innebærer uautorisert tilgang, vanligvis inn i en websides database, er nettskraping bare målrettet mot data som allerede er synlige i frontenden. Selv om folk kan bruke nettskraping skadelig, er det fortsatt ikke synonymt med hacking.

I tillegg til det, i motsetning til nettskraping, er bevisst og uetisk hacking ulovlig.

Hva er positive ved nettskraping?

Nettskraping har mange positive, og til og med noen teknologibedrifter tilbyr nå dataene sine gratis via API-er. Denne informasjonen er vanligvis ikke nok til å vurdere forretningstrender og ta beslutninger.

Så bedrifter får nå mer data ved å skrape på nettet for å forbedre praksis og øke salget. I tillegg mater dataforskere maskinlæringsalgoritmer med data samlet inn via skjermskraping.

Slike data kan være bilder som brukes i bildegjenkjenning, enkle tekster for sentimentanalyse, eller direkte produktdata for markedsinformasjon og forbrukeratferdsanalyse.

I slekt: Unike måter å få datasett til maskinlæringsprosjektet ditt

Så nettskraping er enda mer nyttig, for hvis du har tilgang til informasjon konkurrenten ikke har, kan du slå dem.

Mens noen nettsteder rynker pannen mot nettskraper, bryr noen, til og med e-handelstjenester, seg ikke om du skraper dataene deres eller ikke. Nettgiganter som eBay og Salesforce startet sin API i 2000, og ga programmerere tilgang til offentlige data for første gang.

Bør du faktisk skrape nettet?

Vi har slått fast at nettskraping ikke er ulovlig når det gjøres på riktig måte. Men hva du gjør med dataene du skraper, er også en bekymring. Så i stedet for å misbruke dette, bruk det til å trekke mer innsikt som hjelper deg og andre med å ta informerte beslutninger.

Imidlertid gir nettskraping som en ferdighet deg tilgang til store deler av internettdata, noe som kan hjelpe deg eller din bedrift med å holde seg over forretningsnisje. Som dataforsker utvider det til og med omfanget ditt og forbedrer kodingen og tekniske ferdigheter.

For eksempel er Python et av programmeringsspråkene som hjelper deg med å enkelt skrape et nettsted med det vakre suppebiblioteket eller Scrapy-rammeverket.

E-post
Skrap et nettsted med denne vakre Soup Python-opplæringen

Interessert i nettskraping? Slik skraper du et nettsted for innhold og mer med Beautiful Soup Python-biblioteket.

Les Neste

Relaterte temaer
  • Sikkerhet
  • Programmering
  • Online sikkerhet
  • Nettskraping
Om forfatteren
Idowu Omisola (71 artikler publisert)

Idowu brenner for alt smartteknologi og produktivitet. På fritiden leker han rundt med koding og bytter til sjakkbrettet når han kjeder seg, men han elsker også å bryte seg fra rutinen en gang i blant. Hans lidenskap for å vise folk veien rundt moderne teknologi motiverer ham til å skrive mer.

Mer fra Idowu Omisola

Abonner på vårt nyhetsbrev

Bli med på nyhetsbrevet vårt for tekniske tips, anmeldelser, gratis e-bøker og eksklusive tilbud!

Ett steg til…!

Bekreft e-postadressen din i e-posten vi nettopp sendte deg.

.