Panda-biblioteket gjør python-basert datavitenskap til en enkel tur. Det er et populært Python-bibliotek for lesing, sammenslåing, sortering, rengjøring av data og mer. Selv om pandaer er enkle å bruke og bruke på datasett, har den mange datamanipulerende funksjoner å lære.
Du kan bruke pandaer, men det er en god sjanse for at du underutnytter den til å løse datarelaterte problemer. Her er listen vår over verdifulle data som manipulerer pandafunksjoner som alle dataforskere bør vite.
Installer pandaer i ditt virtuelle miljø
Før vi fortsetter, sørg for at du installerer pandaer i ditt virtuelle miljø ved å bruke pip:
pip installer pandaer
Etter å ha installert den, importer pandaer øverst i manuset ditt, og la oss fortsette.
1. pandaer. Dataramme
Du bruker pandaer. Dataramme() å lage en DataFrame i pandaer. Det er to måter å bruke denne funksjonen på.
Du kan danne en DataFrame kolonnevis ved å sende en ordbok inn i pandaer. Dataramme() funksjon. Her er hver nøkkel en kolonne, mens verdiene er radene:
importere pandaer
DataFrame = pandaer. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
print (DataFrame)
Den andre metoden er å danne DataFrame på tvers av rader. Men her skal du skille verdiene (radelementer) fra kolonnene. Antall data i hver liste (raddata) må også stemme overens med antall kolonner.
importere pandaer
DataFrame = pandaer. DataFrame([[1, 4, 5], [7, 19, 13]], kolonner= ["J", "K", "L"])
print (DataFrame)
2. Les fra og skriv til Excel eller CSV i pandaer
Du kan lese eller skrive til Excel- eller CSV-filer med pandaer.
Leser Excel- eller CSV-filer
Slik leser du en Excel-fil:
#Erstatt eksempel.xlsx med Excel-filbanen
DataFrame = DataFrame.read_excel("example.xlsx")
Slik leser du en CSV-fil:
#Erstatt eksempel.csv med CSV-filbanen
DataFrame = DataFrame.read_csv("example.csv")
Skrive til Excel eller CSV
Å skrive til Excel eller CSV er en velkjent pandaoperasjon. Og det er nyttig for å lagre nylig beregnede tabeller i separate dataark.
Slik skriver du til et Excel-ark:
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
Hvis du vil skrive til CSV:
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
Du kan også beregne de sentrale tendensene til hver kolonne i en DataFrame ved å bruke pandaer.
Slik får du gjennomsnittsverdien for hver kolonne:
DataFrame.mean()
For median- eller modusverdi, erstatt mener() med median() eller modus().
4. DataFrame.transform
pandaer DataFrame.transform() endrer verdiene til en DataFrame. Den godtar en funksjon som et argument.
For eksempel multipliserer koden nedenfor hver verdi i en DataFrame med tre ved å bruke Pythons lambdafunksjon:
DataFrame = DataFrame.transform (lambda y: y*3)
print (DataFrame)
5. DataFrame.isnull
Denne funksjonen returnerer en boolsk verdi og flagger alle rader som inneholder nullverdier som ekte:
DataFrame.isnull()
Resultatet av koden ovenfor kan være vanskelig å lese for større datasett. Så du kan bruke isnull().sum() funksjon i stedet. Dette returnerer et sammendrag av alle manglende verdier for hver kolonne:
DataFrame.isnull().sum()
6. Dataframe.info
De info() funksjonen er en viktig pandaoperasjon. Den returnerer sammendraget av verdier som ikke mangler for hver kolonne i stedet:
DataFrame.info()
7. DataFrame.describe
De beskrive() funksjonen gir deg oppsummeringsstatistikken til en DataFrame:
DataFrame.describe()
8. DataFrame.replace
Bruker DataFrame.replace() metode i pandaer, kan du erstatte utvalgte rader med andre verdier.
For eksempel å bytte ugyldige rader med Nan:
# Sørg for at du pip install numpy for at dette skal fungere
import numpy
importere pandaer
# Hvis du legger til et inplace-søkeord og setter det til True, blir endringene permanente:
DataFrame.replace([ugyldig_1, ugyldig_2], numpy.nan, inplace=True)
print (DataFrame)
9. DataFrame.fillna
Denne funksjonen lar deg fylle tomme rader med en bestemt verdi. Du kan fylle alt Nan rader i et datasett med middelverdien, for eksempel:
DataFrame.fillna (df.mean(), inplace = True)
print (DataFrame)
Du kan også være kolonnespesifikk:
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
print (DataFrame)
10. DataFrame.dropna
De dropna() metoden fjerner alle rader som inneholder nullverdier:
DataFrame.dropna (inplace = True)
print (DataFrame)
11. DataFrame.insert
Du kan bruke pandaer sett inn() funksjon for å legge til en ny kolonne i en DataFrame. Den godtar tre nøkkelord, den kolonnenavn, en liste over dataene og dens plassering, som er en kolonneindeks.
Slik fungerer det:
DataFrame.insert (kolonne = 'C', verdi = [3, 4, 6, 7], loc=0)
print (DataFrame)
Koden ovenfor setter inn den nye kolonnen ved nullkolonneindeksen (den blir den første kolonnen).
12. DataFrame.loc
Du kan bruke loc for å finne elementene i en bestemt indeks. For å se alle elementene i den tredje raden, for eksempel:
DataFrame.loc[2]
13. DataFrame.pop
Denne funksjonen lar deg fjerne en spesifisert kolonne fra en pandas DataFrame.
Den godtar en punkt nøkkelord, returnerer den åpnede kolonnen og skiller den fra resten av DataFrame:
DataFrame.pop (item= 'column_name')
print (DataFrame)
14. DataFrame.max, min
Å få maksimums- og minimumsverdier ved å bruke pandaer er enkelt:
DataFrame.min()
Koden ovenfor returnerer minimumsverdien for hver kolonne. For å få maksimalt, bytt ut min med maks.
15. DataFrame.join
De bli med() funksjonen til pandas lar deg slå sammen DataFrames med forskjellige kolonnenavn. Du kan bruke venstre, høyre, indre eller ytre skjøt. For å venstrebli med i en DataFrame med to andre:
#Left sammen lengre kolonner med kortere
newDataFrame = df1.join([df_shorter2, df_shorter3], how='venstre')
print (newDataFrame)
For å slå sammen DataFrames med lignende kolonnenavn, kan du skille dem ved å inkludere et suffiks til venstre eller høyre. Gjør dette ved å inkludere lsuffiks eller rsuffiks nøkkelord:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
print (newDataFrame)
16. DataFrame.combine
De kombinere() funksjonen er nyttig for å slå sammen to DataFrames som inneholder lignende kolonnenavn basert på angitte kriterier. Den godtar en funksjon søkeord.
For eksempel, for å slå sammen to DataFrames med lignende kolonnenavn bare basert på maksimalverdiene:
newDataFrame = df.combine (df2, numpy.minimum)
print (newDataFrame)
Merk: Du kan også definere en egendefinert valgfunksjon og sette inn numpy.minimum.
17. DataFrame.astype
De astype() funksjon endrer datatypen til en bestemt kolonne eller DataFrame.
For å endre alle verdier i en DataFrame til streng, for eksempel:
DataFrame.astype (str)
18. DataFrame.sum
De sum() funksjon i pandaer returnerer summen av verdiene i hver kolonne:
DataFrame.sum()
Du kan også finne den kumulative summen av alle elementene som bruker cumsum():
DataFrame.cumsum()
19. DataFrame.drop
pandaer miste() funksjonen sletter spesifikke rader eller kolonner i en DataFrame. Du må oppgi kolonnenavnene eller radindeksen og en akse for å bruke den.
Slik fjerner du spesifikke kolonner, for eksempel:
df.drop (columns=['colum1', 'column2'], axis=0)
Slik slipper du rader på indeks 1, 3 og 4, for eksempel:
df.drop([1, 3, 4], akse=0)
20. DataFrame.corr
Vil du finne sammenhengen mellom heltalls- eller flytende kolonner? pandaer kan hjelpe deg å oppnå det ved å bruke corr() funksjon:
DataFrame.corr()
Koden ovenfor returnerer en ny DataFrame som inneholder korrelasjonssekvensen mellom alle heltalls- eller flytende kolonner.
21. DataFrame.add
De Legg til() funksjon lar deg legge til et spesifikt tall til hver verdi i DataFrame. Det fungerer ved å iterere gjennom en DataFrame og operere på hvert element.
I slekt:Slik bruker du for løkker i Python
For å legge til 20 til hver av verdiene i en spesifikk kolonne som inneholder heltall eller flyter, for eksempel:
DataFrame['interger_column'].add (20)
22. DataFrame.sub
I likhet med addisjonsfunksjonen kan du også trekke et tall fra hver verdi i en DataFrame eller spesifikk kolonne:
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Dette er en multiplikasjonsversjon av tilleggsfunksjonen til pandaer:
DataFrame['interger_column'].mul (20)
24. DataFrame.div
På samme måte kan du dele hvert datapunkt i en kolonne eller DataFrame med et spesifikt tall:
DataFrame['interger_column'].div (20)
25. DataFrame.std
Bruker std() funksjon, lar pandas deg også beregne standardavviket for hver kolonne i en DataFrame. Det fungerer ved å iterere gjennom hver kolonne i et datasett og beregne standardavviket for hver:
DataFrame.std()
26. DataFrame.sort_values
Du kan også sortere verdier stigende eller synkende basert på en bestemt kolonne. For å sortere en DataFrame i synkende rekkefølge, for eksempel:
newDataFrame = DataFrame.sort_values (by = "colmun_name", synkende = True)
27. DataFrame.melt
De smelte() funksjon i pandaer snur kolonnene i en DataFrame til individuelle rader. Det er som å avsløre anatomien til en DataFrame. Så det lar deg se verdien som er tildelt hver kolonne eksplisitt.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Denne funksjonen returnerer det totale antallet elementer i hver kolonne:
DataFrame.count()
29. DataFrame.query
pandaer spørsmål() lar deg ringe varer ved å bruke deres indeksnummer. For å få elementene i tredje rad, for eksempel:
DataFrame.query('4') # Ring spørringen på den fjerde indeksen
30. DataFrame.where
De hvor() funksjon er en panda-spørring som godtar en betingelse for å få spesifikke verdier i en kolonne. For eksempel, for å få alle aldre under 30 fra en Alder kolonne:
DataFrame.where (DataFrame['Alder'] < 30)
Koden ovenfor gir ut en DataFrame som inneholder alle aldre under 30 år, men tilordner Nan til rader som ikke oppfyller betingelsen.
Håndter data som en proff med pandaer
pandas er en skattekiste av funksjoner og metoder for å håndtere små til store datasett med Python. Biblioteket er også nyttig for rengjøring, validering og klargjøring av data for analyse eller maskinlæring.
Å ta deg tid til å mestre det gjør livet ditt definitivt enklere som dataforsker, og det er vel verdt innsatsen. Så hent gjerne alle funksjonene du kan håndtere.
Python Standard Library inneholder mange funksjoner som hjelper deg med programmeringsoppgavene dine. Lær om det mest nyttige og lag mer robust kode.
Les Neste
- Programmering
- Python
- Programmering
- database
Idowu er lidenskapelig opptatt av alt smart teknologi og produktivitet. På fritiden leker han med koding og bytter til sjakkbrettet når han kjeder seg, men han elsker også å bryte ut av rutinene en gang i blant. Hans lidenskap for å vise folk veien rundt moderne teknologi motiverer ham til å skrive mer.
Abonner på vårt nyhetsbrev
Bli med i vårt nyhetsbrev for tekniske tips, anmeldelser, gratis e-bøker og eksklusive tilbud!
Klikk her for å abonnere