Hvis du bruker Python, selv for de enkleste oppgavene, er du sannsynligvis klar over viktigheten av tredjepartsbibliotekene. Pandas-biblioteket, med sin utmerkede støtte for DataFrames, er et slikt bibliotek.

Du kan importere flere filtyper til Python DataFrames og lage forskjellige versjoner for å lagre forskjellige datasett. Når du har importert dataene dine ved hjelp av DataFrames, kan du slå dem sammen for å utføre detaljert analyse.

Ta tak i det grunnleggende

Før du begynner å slå sammen, må du ha DataFrames for å slå sammen. For utviklingsformål kan du lage noen dummy-data å eksperimentere med.

Lag DataFrames i Python

Som et første trinn, importer Pandas-biblioteket til Python-filen din. Pandas er et tredjepartsbibliotek som håndterer DataFrames i Python. Du kan bruke import uttalelse om å bruke biblioteket, som følger:

import pandaer som pd

Du kan tilordne et alias til biblioteknavnet for å forkorte kodereferansene dine.

Du må lage ordbøker, som du kan konvertere til DataFrames. For best resultat, lag to ordbokvariabler—dikt1 og dikt2—for å lagre spesifikke opplysninger:

instagram viewer
dikt1 = {"bruker-ID": ["001", "002", "003", "004", "005"],
"F-navn": ["John", "Brad", "Ron", "Roald", "Chris"],
"Lnavn": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dikt2 = {"bruker-ID": ["001", "002", "003", "004"], "Alder": [15, 28, 34, 24]}

Husk at du må ha et felles element i begge ordbokverdiene, for å fungere som primærnøkkelen for å kombinere DataFrames senere.

Konverter ordbøkene dine til datarammer

For å konvertere ordbokverdiene dine til DataFrames, kan du bruke følgende metode:

df1 = pd. DataFrame (dict1)
df2 = pd. DataFrame (dict2)

Noen IDE-er lar deg sjekke verdiene i DataFrame ved å referere til DataFrame-funksjonen og trykke på Kjør/utfør. Det er mange Python-kompatible IDE-er, slik at du kan velge og vrake den som er lettest for deg å lære.

Når du er fornøyd med innholdet i DataFrames, kan du gå videre til sammenslåingstrinnet.

Kombinere rammer med flettefunksjonen

Merge-funksjonen er den første Python-funksjonen du kan bruke til å kombinere to DataFrames. Denne funksjonen tar følgende standardargumenter:

pd.merge (DataFrame1, DataFrame2, how= typeavslå sammen)

Hvor:

  • pd er et alias for Pandas-biblioteket.
  • slå sammen er funksjonen som slår sammen DataFrames.
  • DataFrame1 og DataFrame2 er de to DataFrames som skal slås sammen.
  • hvordan definerer flettetypen.

Noen ekstra valgfrie argumenter er tilgjengelige, som du kan bruke når du har en kompleks datastruktur.

Du kan bruke forskjellige verdier for hvordan-parameteren for å definere hvilken type sammenslåing som skal utføres. Disse typer sammenslåinger vil være kjent hvis du har brukte SQL for å slå sammen databasetabeller.

Venstre flette

Den venstre flettetypen holder verdiene til den første DataFrame intakte og henter de samsvarende verdiene fra den andre DataFrame.

Høyre flette

Den riktige flettetypen holder verdiene til den andre DataFrame intakte og henter de samsvarende verdiene fra den første DataFrame.

Indre sammenslåing

Den indre flettetypen beholder samsvarsverdiene fra begge DataFrames og fjerner ikke-samsvarende verdier.

Ytre sammenslåing

Den ytre flettetypen beholder alle samsvarende og ikke-samsvarende verdier og konsoliderer DataFrames sammen.

Slik bruker du Concat-funksjonen

De concat funksjon er et fleksibelt alternativ sammenlignet med noen av Pythons andre flettefunksjoner. Med concat-funksjonen kan du kombinere DataFrames vertikalt og horisontalt.

Ulempen med å bruke denne funksjonen er imidlertid at den forkaster alle verdier som ikke samsvarer som standard. Som noen andre relaterte funksjoner har denne funksjonen noen få argumenter, hvorav bare noen få er avgjørende for en vellykket sammenkobling.

concat (datarammer, akse=0, join='ytre'/indre)

Hvor:

  • concat er funksjonen som forbinder DataFrames.
  • datarammer er en sekvens av datarammer som skal sammenkobles.
  • akser representerer sammenkoblingsretningen, 0 er horisontal, 1 er vertikal.
  • bli med spesifiserer enten en ytre eller indre skjøt.

Ved å bruke de to datarammene ovenfor, kan du prøve concat-funksjonen som følger:

# definer datarammene i et listeformat
df_merged_concat = pd.concat([df1, df2])

# skriv ut resultatene av Concat-funksjonen
skrive ut(df_merged_concat)

Fraværet av akse- og sammenføyningsargumentene i koden ovenfor kombinerer de to datasettene. Den resulterende utgangen har alle oppføringene, uavhengig av kampstatus.

På samme måte kan du bruke tilleggsargumenter for å kontrollere retningen og utgangen til concat-funksjonen.

For å kontrollere utdataene med alle samsvarende oppføringer:

# Sammenslåing av alle samsvarende verdier mellom de to datarammene basert på deres kolonner
df_merged_concat = pd.concat([df1, df2], akse=1, join = 'indre')

skrive ut(df_merged_concat)

Resultatet inneholder bare alle samsvarende verdier mellom de to DataFrames.

Slå sammen datarammer med Python

DataFrames er en integrert del av Python, med tanke på deres fleksibilitet og funksjonalitet. Gitt deres mangefasetterte bruksområder, kan du bruke dem mye for å utføre en rekke oppgaver med største letthet.

Hvis du fortsatt lærer om Python DataFrames, kan du prøve å importere noen Excel-filer, og deretter kombinere dem med forskjellige tilnærminger.