Utilstrekkelig data er ofte et av de største tilbakeslagene for de fleste datavitenskapelige prosjekter. Men å vite hvordan du kan samle inn data for ethvert prosjekt du vil gå i gang med, er en viktig ferdighet du må tilegne deg som datavitenskapsmann.

Dataforskere og maskinlæringsingeniører bruker nå moderne datainnsamlingsteknikker for å skaffe seg mer data for treningsalgoritmer. Hvis du planlegger å starte ditt første datavitenskap eller maskinlæringsprosjekt, må du også kunne få data.

Hvordan kan du gjøre prosessen enkel for deg selv? La oss ta en titt på noen moderne teknikker du kan bruke til å samle inn data.

Hvorfor trenger du mer data for ditt datavitenskapsprosjekt

Maskinlæringsalgoritmer er avhengig av data for å bli mer nøyaktige, presise og prediktive. Disse algoritmene blir trent ved hjelp av datasett. Treningsprosessen er litt som å lære et smårolling navnet på et objekt for første gang, og la dem deretter identifisere det alene når de neste ser det.

Mennesker trenger bare noen få eksempler for å gjenkjenne et nytt objekt. Det er ikke slik for en maskin, da den trenger hundrevis eller tusenvis av lignende eksempler for å bli kjent med et objekt.

Disse eksemplene eller treningsobjektene må komme i form av data. En dedikert maskinlæringsalgoritme går deretter gjennom det datasettet som kalles et treningssett - og lærer mer om det for å bli mer nøyaktig.

Det betyr at hvis du ikke leverer nok data til å trene algoritmen din, kan det hende at du ikke får riktig resultat på slutten av prosjektet fordi maskinen ikke har tilstrekkelig data å lære av.

Så det er nødvendig å skaffe tilstrekkelig data for å forbedre nøyaktigheten av resultatet ditt. La oss se noen moderne strategier du kan bruke for å oppnå det nedenfor.

1. Skraping av data direkte fra en webside

Nettskraping er en automatisert måte å få data fra nettet. I sin mest grunnleggende form kan nettskraping innebære å kopiere og lime inn elementene på et nettsted i en lokal fil.

Imidlertid innebærer nettskraping også å skrive spesielle skript eller bruke dedikerte verktøy for å skrape data fra en webside direkte. Det kan også innebære mer inngående datainnsamling ved hjelp av Application Programming Interfaces (APIs) som Serpstack.

Tegn nyttige data fra søkeresultater med Serpstack API

Med serpstack API kan du enkelt hente informasjon fra resultatsidene til Google og andre søkemotorer.

Selv om noen mennesker tror at nettskraping kan føre til tap av immaterielle rettigheter, kan det bare skje når folk gjør det ondsinnet. Nettskraping er lovlig og hjelper bedrifter med å ta bedre beslutninger ved å samle offentlig informasjon om sine kunder og konkurrenter.

I slekt: Hva er Web Scraping? Hvordan samle inn data fra nettsteder

For eksempel kan du skrive et skript for å samle inn data fra nettbutikker for å sammenligne priser og tilgjengelighet. Selv om det kan være litt mer teknisk, kan du også samle råmedier som lydfiler og bilder på nettet.

Ta en titt på eksempelkoden nedenfor for å få et glimt av nettskraping med Pythons vakker suppe4 HTML-parserbibliotek.

fra bs4 import BeautifulSoup
fra urllib.request import urlopen
url = "Skriv inn den fullstendige nettadressen til målsiden her"
targetPage = urlopen (url)
htmlReader = targetPage.read (). dekode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
skriv ut (webData.get_text ())

Før du kjører eksempelkoden, må du installere biblioteket. Lag et virtuelt miljø fra kommandolinjen og installer biblioteket ved å kjøre pip installer beautifulsoup4.

2. Via nettskjemaer

Du kan også bruke elektroniske skjemaer for datainnsamling. Dette er mest nyttig når du har en målgruppe for personer du vil samle dataene fra.

En ulempe med å sende ut webskjemaer er at du kanskje ikke samler inn så mye data som du vil. Det er ganske praktisk for små datavitenskapelige prosjekter eller opplæringsprogrammer, men det kan hende du får problemer med å prøve å nå et stort antall anonyme mennesker.

Selv om det finnes betalte online datainnsamlingstjenester, anbefales de ikke for enkeltpersoner, ettersom de stort sett er for dyre - bortsett fra hvis du ikke har noe imot å bruke litt penger på prosjektet.

Det finnes forskjellige skjemaer for å samle inn data fra mennesker. En av dem er Google Forms, som du kan få tilgang til ved å gå til forms.google.com. Du kan bruke Google Forms til å samle inn kontaktinformasjon, demografiske data og andre personlige opplysninger.

Når du har opprettet et skjema, er alt du trenger å gjøre å sende lenken til målgruppen din via e-post, SMS eller andre tilgjengelige midler.

Google Forms er imidlertid bare ett eksempel på populære nettskjemaer. Det er mange alternativer der ute som gjør utmerkede datainnsamlingsjobber også.

Du kan også samle inn data via sosiale medier som Facebook, LinkedIn, Instagram og Twitter. Å få data fra sosiale medier er litt mer teknisk enn noen annen metode. Det er helt automatisert og innebærer bruk av forskjellige API-verktøy.

Sosiale medier kan være vanskelig å hente ut data fra, da de er relativt uorganiserte og det er mye av det. Riktig organisert kan denne typen datasett være nyttig i datavitenskapelige prosjekter som involverer online sentimentanalyse, analyse av markedstrender og online branding.

For eksempel er Twitter et eksempel på en datakilde for sosiale medier der du kan samle et stort volum datasett med sine tweepy Python API-pakke, som du kan installere med pip install tweepy kommando.

For et grunnleggende eksempel ser kodeblokken for å trekke ut Twitter-hjemmesidens tweets slik:

importer tweepy
importer re
myAuth = tweepy. OAuthHandler (lim inn forbrukernøkkel her, lim inn forbrukerens hemmelige nøkkel her)
auth.set_access_token (lim inn tilgang_token her, lim inn tilgang_token_secret her)
autentisere = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
for mål i target_tweet:
skriv ut (target.text)

Du kan besøke docs.tweepy.org nettstedet for å få tilgang til tweepy dokumentasjon for mer informasjon om hvordan du bruker den. For å bruke Twitters API, må du søke om en utviklerkonto ved å gå til developer.twitter.com nettsted.

Facebook er en annen kraftig sosial medieplattform for innsamling av data. Den bruker et spesielt API-endepunkt kalt Facebook Graph API. Denne API-en gjør det mulig for utviklere å samle inn data om spesifikke brukeres atferd på Facebook-plattformen. Du kan få tilgang til Facebook Graph API-dokumentasjonen på utviklere.facebook.com for å lære mer om det.

En detaljert forklaring av samlingen av datainnsamling med API ligger utenfor omfanget av denne artikkelen. Hvis du er interessert i å finne ut mer, kan du sjekke dokumentasjonen til hver plattform for grundig kunnskap om dem.

I tillegg til å skrive skript for tilkobling til et API-endepunkt, samler sosiale medier data fra tredjepartsverktøy som Skrapekspert og mange andre er også tilgjengelige. Imidlertid har de fleste av disse nettverktøyene en pris.

4. Samle inn eksisterende datasett fra offisielle kilder

Du kan også samle eksisterende datasett fra autoritative kilder. Denne metoden innebærer å besøke offisielle databanker og laste ned bekreftede datasett fra dem. I motsetning til nettskraping og andre alternativer, er dette alternativet raskere og krever liten eller ingen teknisk kunnskap.

Datasettene for disse kildetypene er vanligvis tilgjengelige i CSV-, JSON-, HTML- eller Excel-format. Noen eksempler på autoritative datakilder er Verdensbanken, UNdata, og flere andre.

Noen datakilder kan gjøre gjeldende data private for å forhindre at publikum får tilgang til dem. Imidlertid er arkivene deres ofte tilgjengelige for nedlasting.

Flere offisielle datasettkilder for maskinlæringsprosjektet ditt

Denne listen skal gi deg et godt utgangspunkt for å få forskjellige typer data til å jobbe med i prosjektene dine.

  • EUs portal for åpne data
  • Kaggle datasett
  • Google datasett-søk
  • Data Hub
  • Register over åpne data på AWS
  • European Government Agency — Data and Maps
  • Microsoft Research Open Data
  • Awesome Public Datasets Repository på GitHub
  • Data. Gov: Hjemmet til den amerikanske regjeringens åpne data

Det er mange flere kilder enn dette, og nøye søk vil belønne deg med data som er perfekte for dine egne datavitenskapelige prosjekter.

Kombiner disse moderne teknikkene for bedre resultater

Datainnsamling kan være kjedelig når tilgjengelige verktøy for oppgaven er begrensede eller vanskelig å forstå. Mens eldre og konvensjonelle metoder fremdeles fungerer bra og i noen tilfeller er uunngåelige, er moderne metoder raskere og mer pålitelige.

Imidlertid, i stedet for å stole på en enkelt metode, har en kombinasjon av disse moderne måtene å samle inn data potensialet til å gi bedre resultater.

E-post
5 Data Analytics programvareverktøy du kan lære raskt

Ønsker du å komme inn i dataanalyse? Her er noen verktøy du bør lære.

Relaterte temaer
  • Programmering
  • Python
  • Stor Data
  • Maskinlæring
  • Høsting av data
  • Dataanalyse
Om forfatteren
Idowu Omisola (45 artikler publisert)

Idowu brenner for alt smart teknologi og produktivitet. På fritiden leker han med koding og bytter til sjakkbrettet når han kjeder seg, men han elsker også å bryte seg fra rutinen en gang i blant. Hans lidenskap for å vise folk veien rundt moderne teknologi motiverer ham til å skrive mer.

Mer fra Idowu Omisola

Abonner på vårt nyhetsbrev

Bli med på nyhetsbrevet vårt for tekniske tips, anmeldelser, gratis e-bøker og eksklusive tilbud!

Ett steg til…!

Bekreft e-postadressen din i e-posten vi nettopp sendte deg.

.