Internet Movie Database (IMDb) er den største online databasen som inneholder informasjon relatert til filmer, TV-serier, hjemmevideoer, videospill og streaming innhold. Den elektroniske databasen inneholder millioner av nøyaktige poster som du kan bruke til å utføre dataanalyse.

Cinemagoer (tidligere kjent som IMDbPY) er et Python-bibliotek for å administrere og hente data fra IMDb-filmdatabasen. Du kan få tilgang til data om filmer, personer og selskaper, som kan brukes videre til analyser.

Installere nødvendige biblioteker

Du må installere kinogjenger Python-biblioteket for å få tilgang til IMDb database. Kjør følgende kommando i ledeteksten for å installere biblioteket:

pip installere kinogjenger

Du må ha pip installert på systemet ditt for å installere eksterne Python-biblioteker.

Koden som brukes i dette prosjektet er tilgjengelig i en GitHub-depot og er gratis for deg å bruke under MIT-lisensen.

Trekker ut IMDb-data ved hjelp av Python

Du må importere kinogjengerbiblioteket før du bruker det i koden din.

instagram viewer
fra imdb import Kinogjer
ia = Cinemagoer()

Koden ovenfor importerer kinogjengerbiblioteket og oppretter en forekomst av kinogjengerklassen.

Søker filmer

Du kan søke etter filmer med en gitt (eller lignende) tittel ved å bruke search_movie() metode. Hvis du for eksempel vil søke etter filmer med tittelen "rock", må du kjøre følgende kode:

fra imdb import Kinogjer

# Opprette en forekomst av Cinemagoer-klassen
ia = Cinemagoer()

# Søker etter filmer som har rock i navnet
filmer = ia.search_movie('stein')
skrive ut(filmer[0])

Dette skal skrive ut den første filmen den finner, for eksempel:

Du kan få en film med dens IMDb-ID. Du kan deretter trekke ut mer informasjon som regissørnavn og sjangere. Du trenger å gå gjennom listen for å få individuell informasjon.

fra imdb import Kinogjer

# Opprette en forekomst av Cinemagoer-klassen
ia = Cinemagoer()

# Får film etter IMDb ID
film = ia.get_movie('0468569')
skrive ut(film)

# Skriver ut navnene på regissørene av filmen
skrive ut('Regissører:')

for regissør i film['direktører']:
print (direktør['Navn'])

# skrive ut sjangrene til filmen
skrive ut('Sjangere:')

for sjanger i film['sjangere']:
skrive ut(sjanger)

I utdataene bør du se navnet på den gitte filmen, regissøren(e) og sjangeren(e):

Søker etter en person

Du kan søke etter personer ved hjelp av search_person() metode. For eksempel, hvis du vil søke etter "Heath", må du kjøre følgende kode:

fra imdb import Kinogjer

# Opprette en forekomst av Cinemagoer-klassen
ia = Cinemagoer()

# Søker etter personer som har Heath i navnene sine
personer = ia.search_person('Heath')
skrive ut(personer[0])

Du vil se navnet på den første personen som samsvarer med søket:

Søker etter selskaper

Du kan søke etter selskaper ved å bruke search_company() metode. Hvis du for eksempel vil søke etter "Universal", må du kjøre følgende kode:

fra imdb import Kinogjer

# Opprette en forekomst av Cinemagoer-klassen
ia = Cinemagoer()

# Søker etter selskaper som har Universal i navnene sine
selskaper = ia.search_company('Universell')
skrive ut(selskaper)

Du får listen over alle selskaper som har Universal i navnet.

Du kan også hente person- og bedriftsdata ved å bruke IDen.

fra imdb import Kinogjer

# Opprette en forekomst av Cinemagoer-klassen
ia = Cinemagoer()

# Henter persondata etter ID
person = ia.get_person('0005132')
print (person['Navn'])
print (person['bursdag'])

# Henter bedriftsdata etter ID
selskap = ia.get_company('0005073')
print (selskap['Navn'])

Utdataene vil vise detaljer om personen og navnet på et selskap:

Finne topp- og bunnfilmer

Du kan hente data for topp 250 og nederst 100 filmer ved å bruke get_top250_movies() og get_bottom100_movies() metoder, henholdsvis:

fra imdb import Kinogjer

# Opprette en forekomst av Cinemagoer-klassen
ia = Cinemagoer()

# Finne de 250 beste filmene
topp = ia.get_top250_movies()
skrive ut(topp[0])

# Finne de 100 beste filmene
nederst = ia.get_bottom100_movies()
skrive ut(bunn[0])

Som svar vil du se navnet på den beste filmen, og navnet på den verste:

Kinogjengerbiblioteket tilbyr også noen andre metoder som get_top250_tv(), get_popular100_movies(), og get_top250_indian_movies().

Dataanalyse er evaluering av data ved å bruke analytiske eller statistiske verktøy for å trekke ut informasjon. Populariteten til dataanalyse vokser hver dag. Den brukes nå av bedrifter, markedsføringsselskaper og idrettslag. Den komplette prosessen med dataanalyse inkluderer å definere mål, stille spørsmål, datainnsamling, dataskrubbing, dataanalyse og konkluderende resultater.

Du kan få datasett for prosjektene dine ved å bruke Python-biblioteker som Cinemagoer eller via nettplattformer som Kaggle. Ved siden av fullspråklige språk som Python og R, kan du bruke andre verktøy som Microsoft Excel, Tableau og Stata for å utføre dataanalyse.