Benytt deg av PandasAI Python-biblioteket for å utnytte kraften til kunstig intelligens og store språkmodeller for å utføre dataanalyseoppgaver.

Pandas er det mest dominerende biblioteket for å manipulere datasett og datarammer. Dette har vært normen i lang tid. Men med fremskrittet innen kunstig intelligens, utvikles et nytt åpen kildekode-bibliotek kalt PandasAI som legger til generative AI-funksjoner til Pandas.

PandasAI erstatter ikke Pandas. I stedet gir den sine generative AI-evner. På denne måten kan du utføre dataanalyse ved å chatte med PandasAI. Den abstraherer deretter hva som skjer i bakgrunnen og gir deg resultatet av spørringen.

Installerer PandasAI

PandasAI er tilgjengelig via PyPI (Python Package Index). Lag et nytt virtuelt miljø hvis du bruker en lokal IDE. Deretter bruk pip-pakkebehandleren å installere den.

pip installer pandasai

Du kan støte på en avhengighetskonfliktfeil som ligner på den som vises nedenfor hvis du bruker Google Colab.

Ikke nedgrader IPython-versjonen. Bare start kjøretiden på nytt og kjør kodeblokken igjen. Dette vil løse problemet.

instagram viewer

Den fullstendige kildekoden er tilgjengelig i en GitHub-depot.

Forstå prøvedatasettet

Eksempeldatasettet du vil manipulere med PandasAI er California Housing Prices-datasettet fra Kaggle. Dette datasettet inneholder informasjon om boliger fra folketellingen i California i 1990. Den har ti kolonner som gir statistikk om disse husene. Datakortet som hjelper deg med å lære mer om dette datasettet er tilgjengelig på Kaggle. Nedenfor er de fem første radene i datasettet.

Hver kolonne representerer en enkelt statistikk for et hus.

Koble PandasAI til den store språkmodellen

For å koble PandasAI til en stor språkmodell (LLM) som for OpenAI, trenger du tilgang til API-nøkkelen. For å få en, fortsett til OpenAI-plattform. Logg deretter på kontoen din. Plukke ut API under alternativsiden som vises neste.

Deretter klikker du på profilen din og velger Se API-nøkler alternativ. Klikk neste gang på siden som vises Opprett ny hemmelig nøkkel knapp. Til slutt, navngi API-nøkkelen din.

OpenAI vil generere API-nøkkelen din. Kopier det slik du trenger det mens du kobler PandasAI til OpenAI. Sørg for at du holder nøkkelen hemmelig, siden alle som har tilgang til den kan ringe til OpenAI på dine vegne. OpenAI vil da belaste kontoen din for samtalene.

Nå som du har API-nøkkelen, lag et nytt Python-skript og lim inn koden nedenfor. Du trenger ikke å endre denne koden da du mesteparten av tiden vil bygge på den.

import pandaer som pd
fra pandasai import PandasAI

# Erstatt med datasettet eller datarammen
df = pd.read_csv("/content/housing.csv")

# Instantier en LLM
fra pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="ditt API-token")

pandas_ai = PandasAI(llm)

Koden ovenfor importerer både PandasAI og Pandas. Den leser deretter et datasett. Til slutt instansierer det OpenAI LLM.

Du er nå satt til å snakke med dataene dine.

Utføre enkle oppgaver ved hjelp av PandasAI

For å forespørre dataene dine, send datarammen og forespørselen til instansen av PandasAI-klassen. Start med å skrive ut de fem første radene i datasettet.

pandas_ai (df, prompt='Hva er de fem første radene i datasettet?')

Utdataene fra ledeteksten ovenfor er som følger:

Denne utgangen er identisk med den i datasettoversikten tidligere. Dette viser at PandasAI gir korrekte resultater og er pålitelig.

Deretter kontrollerer du antall kolonner i datasettet.

pandas_ai (df, prompt='Hvor mange kolonner er det i datasettet? ')

Den returnerer 10 som er riktig antall kolonner i California Housing-datasettet.

Sjekker om det mangler verdier i datasettet.

pandas_ai (df, prompt="Mangler det noen verdier i datasettet?")

PandasAI returnerer at totalt_soverom kolonne har 207 manglende verdier, som igjen er riktig.

Det er mange enkle oppgaver du kan oppnå ved å bruke PandasAI, du er ikke begrenset til de ovenfor.

Utføre komplekse spørringer ved hjelp av PandasAI

PandasAI støtter ikke bare enkle oppgaver. Du kan også bruke den til å utføre komplekse spørringer på datasettet. For eksempel, i boligdatasettet, hvis du ønsker å bestemme antall hus som ligger på en øy, har en verdi på mer enn 100 000 dollar, og har mer enn 10 rom du kan bruke ledeteksten under.

pandas_ai (df, prompt= "Hvor mange hus har en verdi større enn 100 000,"
"er på en øy og totalt antall soverom er mer enn 10?")

Riktig utgang er fem. Dette er det samme resultatet som PandasAI gir.

Komplekse spørringer kan ta en dataanalytiker litt tid å skrive og feilsøke. Spørsmålet ovenfor tar bare to linjer med naturlig språk for å utføre den samme oppgaven. Du trenger bare å ha i tankene nøyaktig hva du vil oppnå, og PandasAI tar seg av resten.

Tegne diagrammer ved hjelp av PandasAI

Diagrammer er en viktig del av enhver dataanalyseprosess. Det hjelper dataanalytikerne med å visualisere dataene på en menneskevennlig måte. PandasAI har også en funksjon for karttegning. Du må bare bestå datarammen og instruksjonen.

Start med å lage et histogram for hver kolonne i datasettet. Dette vil hjelpe deg med å visualisere fordelingen av variablene.

pandas_ai (df, prompt= "Plott et histogram for hver kolonne i datasettet")

Utgangen er som følger:

PandasAI var i stand til å tegne histogrammet til alle kolonnene uten å måtte sende navnene deres i ledeteksten.

PandasAI kan også plotte diagrammer uten at du forteller det eksplisitt hvilket diagram du skal bruke. Det kan for eksempel være lurt å finne ut korrelasjonen til dataene i boligdatasettet. For å oppnå dette kan du sende en melding som følger:

pandas_ai (df, prompt= "Plott korrelasjonen i datasettet")

PandasAI plotter en korrelasjonsmatrise som vist nedenfor:

Biblioteket velger et varmekart og plotter en korrelasjonsmatrise.

Sende inn flere datarammer til PandasAI-forekomsten

Å jobbe med flere datarammer kan være vanskelig. Spesielt for en person som er ny innen dataanalyse. PandasAI bygger bro over dette gapet ettersom alt du trenger å gjøre er å sende begge datarammene og begynne å bruke ledetekster for å manipulere dataene.

Lag to datarammer med Pandas.

ansatte_data = {
'Ansatt ID': [1, 2, 3, 4, 5],
'Navn': ['John', 'Emma', 'Liam', "Olivia", 'William'],
'Avdeling': ['HR', "Salg", 'DEN', 'Markedsføring', 'Finansiere']
}

lønnsdata = {
'Ansatt ID': [1, 2, 3, 4, 5],
'Lønn': [5000, 6000, 4500, 7000, 5500]
}

ansatte_df = pd. DataFrame (employees_data)
lønn_df = pd. DataFrame (lønnsdata)

Du kan stille PandasAI et spørsmål som går på tvers av begge datarammene. Du trenger bare å sende begge datarammene til PandasAI-forekomsten.

pandas_ai([ansatte_df, lønninger_df], "Hvilken ansatt har størst lønn?")

Den kommer tilbake Olivia som igjen er det riktige svaret.

Å utføre dataanalyse har aldri vært enklere, PandasAI lar deg chatte med dataene dine og analysere dem med letthet.

Forstå teknologien som driver PandasAI

PandasAI forenkler prosessen med dataanalyse og sparer dermed mye tid for dataanalytikere. Men den abstraherer det som skjer i bakgrunnen. Du må gjøre deg kjent med generativ AI slik at du kan ha en oversikt over hvordan PandasAI fungerer under panseret. Dette vil også hjelpe deg å holde tritt med de siste innovasjonene i det generative AI-domenet.