Annonse
Hva ville du sagt hvis jeg fortalte deg at du har verktøyene til disposisjon for å gjøre banebrytende, jordskoddende undersøkelser? Det gjør du, og jeg skal vise deg hvordan.
Regjeringer, akademiske institusjoner og ideelle organisasjoner publiserer tabeller fulle av data til det offentlige. Uten at noen bruker denne informasjonen, vil den sanne verdien aldri bli kjent. Dessverre er det få som har innsikt, ferdigheter eller verktøy for å ta dataene og lage interessante sammenhenger mellom tilsynelatende uforbundet informasjon.
Bakgrunn
Mye av forskningen jeg gjør for min egen blogg innebærer å bla gjennom det som er kjent som usynlig nett De 12 beste søkemotorene for å utforske det usynlige nettetGoogle eller Bing kan ikke søke etter alt. For å utforske det usynlige nettet, må du bruke disse spesielle søkemotorene. Les mer , for å avdekke data som er gitt ut for publikum, men som er skjult for søkemotorer De 5 mest avanserte søkemotorene på nettet Les mer i en online database. Dette er
dyp nett TorSearch har som mål å være Google for den dype nettetTor er en skjult tjeneste og en del av Deep Web. TorSearch er en ny anonym søkemotor som grunnleggeren Chris MacNaughton ønsker å lage "Google of Tor". Les mer , og det er mye verdifull data. Veldig ofte kommer jeg på nettsider som bare er fylt med noen av de mest verdifulle dataene om temaer som kjører spekteret fra folketellingen til epidemiologiske studier om sjeldne sykdommer. Jeg har stadig nye ideer til hvordan jeg skal prøve å korrelere de forskjellige datakildene ved å bruke forskjellige verktøy - og et av de mest verdifulle verktøyene jeg har funnet, er webspørringen i Microsoft Utmerke.Finne interessante datakorrelasjoner
Det jeg skal vise deg i dag, er et eksempel på hvordan du kan bruke Excel Web Queries for å hente inn data fra forskjellige nettsteder, og kartlegg dem mot hverandre for å søke etter potensielle korrelasjoner mellom data.
Måten å starte en øvelse som denne på er å komme med en interessant hypotese. For eksempel - for å holde ting interessant her - skal jeg tilfeldig legge opp til at skyrocketing av autismesatser i USA er forårsaket av enten vaksineinokulasjoner eller den økende tilstedeværelsen av elektromagnetiske felt i og rundt barn, for eksempel celle telefoner. Det er en gal hypotese som du finner på de fleste konspirasjonsteoris nettsteder, men det er det som gjør dette morsomt. Så la oss komme i gang, skal vi vel?
Først åpner du Excel, går over til data-menyelementet, og finn "Fra nettet" -ikonet i menylinjen.
Dette er hva du vil bruke til å importere de forskjellige datatabellene fra de mange nettstedene der ute som har publisert dem.
Importere webdata til Excel
Så i gamle dager måtte du prøve å kopiere dataene fra den tabellen på en webside, lime dem inn i Excel og deretter håndtere alle de sprø formateringsproblemene som er involvert i å gjøre det. Totalt mas, og mange ganger er det bare ikke verdt hodepine. Vel, med Excel Web Queries, er disse dagene borte. Før du kan importere dataene, trenger du selvfølgelig å Google deg rundt på nettet for å finne dataene du trenger i tabellformat. I mitt tilfelle fant jeg et nettsted som hadde publisert statistikk for institutt for utdanning for antall amerikanske studenter på offentlige skoler som ble identifisert som autisme. En fin tabell der ga tall fra 1994 helt gjennom 2006.
Så du klikker bare på “Fra nettet”, limer inn websiden til nettadressen i spørringsadressefeltet, og bla deretter nedover til siden til du ser den gule pilen ved siden av tabellen med dataene du vil importere.
Klikk på pilen slik at den blir et grønt merke.
Til slutt, fortell Excel hvilket felt du vil lime inn tabeldataene i inne i det nye regnearket.
Så - Voila! Dataene flyter automatisk rett inn i regnearket.
Så med en trend med offentlige skoles autismepriser fra 1996 - 2006 på plass, er det på tide å gå ut på jakt etter trender for vaksinasjon og bruk av mobiltelefoner.
Heldigvis fant jeg raskt trender for mobiltelefonabonnenter i USA fra 1985 til og med 2012. Utmerkede data for denne studien. Igjen, jeg brukte Excel Web Query-verktøyet for å importere den tabellen.
Jeg importerte tabellen til et rent, nytt ark. Deretter oppdaget jeg vaksinasjonstrender for prosentandel av skolebarn som er vaksinert for forskjellige sykdommer. Jeg importerte den tabellen ved hjelp av Web Query-verktøyet til et tredje ark. Så til slutt hadde jeg tre ark med de tre tabellene fylt med de tilsynelatende ikke tilkoblede dataene jeg hadde oppdaget på nettet.
Neste trinn er å bruke Excel til å analysere dataene og prøve å identifisere eventuelle korrelasjoner. Det er her et av favorittverktøyene for dataanalyse spiller inn - PivotTable.
Analysere data i Excel med pivottabellen
Det er best å lage PivotTable i et helt nytt, tomt ark. Du vil bruke veiviseren til det du skal gjøre. For å aktivere PivotTable-veiviseren i Excel, må du trykke på Alt-D samtidig til et varselvindu dukker opp. Så slipp disse knappene, og trykk på “P” -tasten. Deretter ser du veiviseren dukke opp.
I det første vinduet i veiviseren vil du velge "Flere konsolideringsområder", som lar deg velge dataene fra alle arkene du har importert. Ved å gjøre dette, kan du konsolidere alle de tilsynelatende ubeslektede dataene til en, kraftig dreibar. I noen tilfeller kan det hende du må massere noen av dataene. For eksempel måtte jeg fikse “År” -feltet i autismetabellen slik at det viste “1994” i stedet for "1994-95" - noe som gjør det bedre med tabellene på de andre arkene, som også hadde hovedåret felt.
Det vanlige feltet mellom data er det du trenger for å prøve å korrelere informasjon, så husk det når du jakter på Internett etter dataene dine.
Når PivotTable er ferdig og du har fått vist alle de forskjellige dataverdiene i en tabell, er det på tide å gjøre en visuell analyse for å se om det er noen åpenbar forbindelse som hopper ut mot deg.
Visualisering av data er nøkkel
Det er flott å ha en mengde tall i en tabell hvis du er økonom, men den raskeste og enkleste måten å ha at "aha!" øyeblikk når du prøver å finne forbindelser som en nål i en høystakk, er via diagrammer og grafer. Når du har PivotChart på plass med alle datasettene du har samlet, er det på tide å lage grafen. Vanligvis vil en linjediagram gjøre det best, men det avhenger av dataene. Det er tider hvor et søylediagram fungerer mye bedre. Forsøk å forstå hva slags data du ser på, og hvilken form for sammenligning som fungerer best.
I dette tilfellet ser jeg på data over tid, så en linjediagram er virkelig den beste måten å se trender gjennom årene. Kartlegge autismesatser (grønn) mot nedskalert vaksinasjonsgrad (mørkeblå), vannkopper-vaksiner (lyseblå) og bruk av mobiltelefon (lilla), dukket plutselig en merkelig korrelasjon opp i dette prøvesettet med data som jeg spilte med.
Merkelig nok stemte trenden i bruk av mobiltelefoner fra 1994 til 2006 nesten perfekt med stigningen i autismepriser over samme tidsperiode. Mens mønsteret var helt uventet, er det et perfekt eksempel på hvordan det å binde sammen interessante data kan avsløre fascinerende kundeemner - gir deg større innsikt og motivasjon for å fortsette å presse deg frem og søke etter flere data som kan styrke din ytterligere hypotese.
En korrelasjon som den ovenfor viser ikke noe. Det er mange trender som stiger over tid - mønsteret kan være tilfeldigheter, men det kan også være en viktig ledetråd i din pågående søken etter mer data på Internett. Heldigvis har du et kraftig verktøy som heter Excel Web Queries som vil gjøre denne søken bare litt enklere.
Fotokreditt: Kevin Dooley via photopincc
Ryan har en BSc-grad i elektroteknikk. Han har jobbet 13 år innen automatisering, 5 år innen IT, og er nå en applikasjonsingeniør. Han var tidligere administrerende redaktør for MakeUseOf, han snakket på nasjonale konferanser om datavisualisering og har blitt omtalt på nasjonal TV og radio.