Annonse
Når det gjelder online databaser og informasjon som kan finnes i det som er kjent som "usynlig nett De 12 beste søkemotorene for å utforske det usynlige nettetGoogle eller Bing kan ikke søke etter alt. For å utforske det usynlige nettet må du bruke disse spesielle søkemotorene. Les mer ", jeg er ikke din typiske bruker. Jada, jeg bruker litt for mye av tiden min på å søke gjennom online databaser på steder som National Archives og CIA FOIA lesing rom, men jeg må si at ingenting gjør meg mer begeistret enn når jeg finner en HTML-basert tabell fylt med volumer av tilsynelatende komplekse og usammenhengende data.
Faktum er at datatabeller er en gullgruve av viktige sannheter. Data blir ofte samlet inn av hærer av datainnsamlingsgrynt med støvler på bakken. Du har folk fra U.S. Census som reiser hele landet for å få informasjon om husholdning og familie. Du har non-profit miljøgrupper som samler inn all slags interessant informasjon om miljøet, forurensning, global oppvarming og mer. Og hvis du er interessert i det paranormale eller Ufology, er det også konstant oppdaterte tabeller med informasjon om observasjoner av merkelige objekter på himmelen over oss.
Ironisk nok skulle du tro at enhver regjering i verden ville være interessert i å vite hva slags utenlandske fartøy blir oppdaget i himmelen over et hvilket som helst land, men tilsynelatende ikke - i hvert fall ikke i USA. uansett. I Amerika har samlingen av uvanlige observasjoner av håndverk blitt henvist til team av amatørhobbyister som strømmer til nye UFO-observasjoner som møll til en flamme. Min interesse for disse observasjonene stammer faktisk ikke fra en fascinasjon for romvesener eller håndverk fra andre planeter, men fra en vitenskapelig fascinasjon for mønstre - hvor og hvorfor flere mennesker ser ting på himmelen, og om disse observasjonene kan reflektere noe veldig ekte og mye mer jordnært som faktisk går på.
For å utforske datamengdene samlet inn av team av UFO-hobbyister, har jeg faktisk utviklet en måte å importere store HTML-tabeller med data inn i et Google-regneark, og deretter manipulere og analysere disse dataene for å trekke ut og oppdage meningsfylt og viktig informasjon. I denne artikkelen har jeg tenkt å vise deg hvordan du gjør det samme.
Viktige HTML-data til Google-regneark
I dette eksemplet skal jeg vise deg hvordan du importerer data som kan være lagret i en tabell på et hvilket som helst nettsted på Internett, til Google-regnearket ditt. Tenk på det enorme datavolumet som er tilgjengelig på Internett i dag i form av HTML-tabeller. Wikipedia alene har data i tabeller for emner som global oppvarming, U.S. Census Bureau har tonnevis av populasjonsdatasett, og litt googling vil gi deg mye mer utover det.
I mitt eksempel starter jeg med en database på National UFO Reporting Center som faktisk ser ut som om det kan være en dypnettdatabase i spørringsstil, men hvis du observerer URL-strukturering, det er faktisk et semi-komplekst nettbasert rapporteringssystem som består av statiske nettsider og statiske HTML-tabeller – akkurat det vi ønsker når vi leter etter data til import.
NUForc.org er en av de organisasjonene som fungerer som et av de største rapporteringssentrene for UFO-observasjoner. Det er ikke det eneste, men det er stort nok til å finne nye datasett med nåværende observasjoner for hver måned. Du velger å se dataene sortert etter kriterier som stat eller dato, og hver av disse er gitt i form av en statisk side. Hvis du sorterer etter dato og deretter klikker på den nyeste datoen, vil du se at tabellen som er oppført der, er en statisk nettside navngitt i henhold til datoformatet.
Så vi har nå et mønster for regelmessig å trekke ut den siste observasjonsinformasjonen fra denne HTML-baserte databasen. Alt du trenger å gjøre er å importere den første tabellen, bruk den nyeste oppføringen (den øverste) for å identifisere siste oppdatering, og bruk deretter datoen for innlegget til å bygge URL-koblingen der den siste HTML-datatabellen finnes. Å gjøre dette vil ganske enkelt kreve et par forekomster av ImportHTML-funksjonen, og deretter noen få kreative bruk av tekstmanipulasjonsfunksjoner. Når du er ferdig, har du et av de kuleste, selvoppdaterende rapporteringsregnearkene dine. La oss komme i gang.
Importere tabeller og manipulere data
Det første trinnet er selvfølgelig å lage det nye regnearket.
Så hvordan importerer du HTML-tabeller? Alt du trenger er nettadressen der tabellen er lagret, og nummeret til tabellen på siden – vanligvis er den første som er oppført 1, den andre er 2, og så videre. Siden jeg kjenner nettadressen til den første tabellen som viser datoer og antall observasjoner som er oppført, er det mulig å importere ved å skrive inn følgende funksjon i celle A1.
=importhtml(“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 har funksjonen "=time (nå())", så tabellen vil oppdateres hver time. Dette er sannsynligvis ekstremt for data som oppdaterer dette sjelden, så jeg kunne nok slippe unna med å gjøre det daglig. Uansett, importHTML-funksjonen ovenfor bringer inn tabellen som vist nedenfor.
Du må gjøre litt datamanipulasjon på denne siden før du kan sette sammen URL-en til den andre tabellen med alle UFO-observasjonene. Men fortsett og lag det andre arket i arbeidsboken.
Før du prøver å bygge det andre arket, er det på tide å trekke ut postdatoen fra denne første tabellen, for å bygge koblingen til den andre tabellen. Problemet er at datoen er hentet inn som et datoformat, ikke en streng. Så, først må du bruke TEXT-funksjonen for å konvertere rapportens postdato til en streng:
=tekst (A2,”mm/dd/åå”)
I neste celle til høyre må du bruke SPLIT-funksjonen med "/"-skilletegn for å dele datoen opp i måned, dag og år.
=splitt (D2,”/”)
Ser bra ut! Hvert tall må imidlertid tvinges til to sifre. Du gjør dette i cellene rett under dem ved å bruke TEXT-kommandoen igjen.
=tekst (E2,”00″)
Et format på "00" (de er nuller) tvinger to sifre, eller en "0" som plassholder.
Nå er du klar til å gjenoppbygge hele URL-en til den nyeste HTML-tabellen med nye observasjoner. Du kan gjøre dette ved å bruke CONCATENATE-funksjonen og sette sammen alle informasjonsbitene du nettopp hentet fra den første tabellen.
=sammenknytt(“ http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Nå, på det nye arket du opprettet ovenfor (det tomme arket), skal du gjøre en ny "importhtml"-funksjon, men denne gangen for første URL-koblingsparameter, så du skal navigere tilbake til det første regnearket og klikke på cellen med URL-lenken du nettopp opprettet.
Den andre parameteren er "tabell" og den siste er "1" (fordi observasjonstabellen er den første og eneste på siden). Trykk enter, og nå har du nettopp importert hele volumet av observasjoner som ble lagt ut på den aktuelle datoen.
Så du tenker nok at dette er en fin nyhet og alt – jeg mener tross alt det du har gjort er hentet ut eksisterende informasjon fra en tabell på Internett og migrerte den til en annen tabell, om enn en privat i Google Dokumenter regnskap. Ja, det er sant. Men nå som det er i din egen private Google Docs-konto, har du verktøyene og funksjonene for å bedre analysere disse dataene og begynne å oppdage fantastiske forbindelser.
Bruke pivotrapporter for å analysere importerte data
For nylig skrev jeg en artikkel om bruk Pivotrapporter i Google-regneark Bli en ekspertdataanalytiker over natten ved å bruke Googles regnearkrapportverktøyVisste du at et av de beste verktøyene for å utføre dataanalyse faktisk er Google Spreadsheet? Grunnen til dette er ikke bare fordi den kan gjøre nesten alt du måtte ønske å ... Les mer å utføre alle slags kule dataanalysebragder. Vel, du kan gjøre den samme fantastiske dataanalyseakrobatikken på dataene du har importert fra Internett – gir deg muligheten til å avdekke interessante sammenhenger som muligens ingen andre har avdekket før du.
For eksempel, fra den endelige observasjonstabellen, kan jeg bestemme meg for å bruke en pivotrapport for å se på antall forskjellige unike former rapportert i hver stat, sammenlignet med det totale antallet observasjoner i den aktuelle staten stat. Til slutt filtrerer jeg også bort alt som nevner "aliens" i kommentarfeltet, for forhåpentligvis luke ut noen av de mer vingenøttoppføringene.
Dette avslører faktisk noen ganske interessante ting rett på gang, for eksempel det faktum at California klart har høyest antall rapporterte observasjoner av enhver annen stat, sammen med forskjellen på å rapportere det høyeste antallet håndverksformer i land. Det viser også at Massachusetts, Florida og Illinois er store hits i UFO-observasjonsavdelingen også (i hvert fall i de nyeste dataene).
En annen kul ting med Google Spreadsheet er det store utvalget av diagrammer som er tilgjengelige for deg, inkludert et geokart som lar deg legge ut "hot spots" av data i et grafisk format som virkelig skiller seg ut og gjør disse forbindelsene i dataene ganske åpenbart.
Hvis du tenker deg om, er dette egentlig bare toppen av isfjellet. Hvis du nå kan importere data fra datatabeller på en hvilken som helst side på Internett, bare tenk på mulighetene. Få de siste aksjetallene, eller de siste topp 10 bøkene og forfatterne på New York Times bestselgerliste, eller de mest solgte bilene i verden. Det er HTML-tabeller der ute om nesten alle emner du kan tenke deg, og i mange tilfeller oppdateres disse tabellene ofte.
ImportHtml gir deg muligheten til å koble Google-regnearket til Internett og mate av dataene som finnes der ute. Det kan bli ditt eget personlige knutepunkt for informasjon som du kan bruke til å manipulere og massere til et format du faktisk kan jobbe med. Det er bare en veldig kul ting til med Google Spreadsheet.
Har du noen gang importert data til regnearkene dine? Hva slags interessante ting oppdaget du i disse dataene? Hvordan brukte du dataene? Del dine erfaringer og ideer i kommentarfeltet nedenfor!
Bildekreditt: Forretningsgraf
Ryan har en BSc-grad i elektroteknikk. Han har jobbet 13 år innen automatiseringsteknikk, 5 år innen IT, og er nå Apps-ingeniør. En tidligere administrerende redaktør for MakeUseOf, han har talt på nasjonale konferanser om datavisualisering og har blitt omtalt på nasjonal TV og radio.