Python, som språk, er verdifullt utover mål, spesielt når du ønsker å jobbe med strukturerte data. Siden folk lagrer mye data i Excel-filer, er det viktig å konsolidere flere filer for å spare tid og krefter.
Python lar deg gjøre akkurat det; uansett hvor mange Excel-filer du vil kombinere, kan du gjøre det relativt enkelt. Gitt utvalget av biblioteker og tredjepartsressurser, kan du importere og bruke Pythons mangefasetterte verktøy for å gjøre budene dine.
I denne veiledningen må du installere og bruke Pandas-bibliotekene til å importere data til Python før du konsoliderer dem.
Installer Pandas Libraries i Python
Pandas er et tredjepartsbibliotek som du kan installere i Python. Noen IDE-er har allerede Pandaer installert i seg.
Hvis du bruker en IDE-versjon som ikke følger med forhåndsinstallerte pandaer, vær trygg, du kan installere den direkte i Python.
Slik installerer du Pandas:
pip installer pandaer
Hvis du bruker Jupyter Notebook, kan du installere Pandas direkte med PIP-kommando. For det meste, når du har installert Jupyter med Anaconda, er det store sjanser for allerede å ha Pandaer tilgjengelig for direkte bruk.
Hvis du ikke kan ringe Pandas, kan du bruke kommandoen ovenfor for å installere dem direkte.
Kombinere Excel-filer med Python
Først må du opprette en mappe på ønsket sted med alle Excel-filene. Når mappen er klar, kan du begynne å skrive koden for å importere bibliotekene.
Du vil bruke to variabler i denne koden:
- Pandaer: Pandas-biblioteket gir datarammene for å lagre Excel-filer.
- OS: Biblioteket er nyttig for å lese data fra maskinens mappe
For å importere disse bibliotekene, bruk disse kommandoene:
Importer pandaer som pd
Importer OS
- Import: Python-syntaks som brukes til å importere bibliotekene i Python
- Pandaer: Navn på biblioteket
- pd: Alias gitt til biblioteket
- OS: Et bibliotek for å få tilgang til systemmappen
Når du har importert bibliotekene, lag to variabler for å lagre inngangs- og utdatafilbanen. Inndatafilbanen er nødvendig for å få tilgang til filenes mappe. Utdatafilbanen er nødvendig siden den kombinerte filen vil bli eksportert dit.
Hvis du bruker Python, sørg for at du endrer skråstreken til forover-skråstrek (\ til /)
input_file_path = "C:/Brukere/gaurav/OneDrive/Desktop/Excel-filer/"
output_file_path = "C:/Brukere/gaurav/OneDrive/Desktop/"
Legg til / på slutten også for å fullføre stiene.
Mappens filer er tilgjengelige i en liste. Opprett en liste for å lagre alle filreferansene til inndatamappen ved å bruke listedir funksjon fra OS bibliotek.
Hvis du er usikker på hvilke funksjoner som er tilgjengelige i et bibliotek, kan du bruke dir funksjon med biblioteknavnet. For å sjekke den nøyaktige versjonen av listdir-funksjonen, kan du for eksempel bruke kommandoen som følger:
dir (OS)
Utdataene vil bestå av alle de tilknyttede funksjonene som er tilgjengelige i OS-biblioteket. Listdir-funksjonen er en av de mange funksjonene som er tilgjengelige i dette biblioteket.
Opprett en ny variabel for å lagre inndatafilene fra mappen.
excel_file_list = os.listdir (input_file_path)
Skriv ut denne variabelen for å se navnene på filene som er lagret i mappen. Alle filer som er lagret i mappen vises når du bruker utskriftsfunksjonen.
print (excel_file_list)
Deretter må du legge til en ny dataramme for å lagre hver Excel-fil. Se for deg en dataramme som en beholder for lagring av data. Her er kommandoen for å lage en dataramme.
df = pd. Dataramme()
- df: Variabel for å lagre verdien til DataFrame
- pd: Alias for Pandas bibliotek
- Dataramme: Standard syntaks for å legge til en dataramme
Inndatamappen har tre .xlsx filer i dette eksemplet. Filnavnene er:
Fil1_excel.xlsx
Fil2_excel.xlsx
File3_excel.xlsx
For å åpne hver fil fra denne mappen, må du kjøre en løkke. Løkken vil kjøre for hver av filene i listen opprettet ovenfor.
Slik kan du gjøre det:
for excel_filer i excel_file_list:
Deretter er det nødvendig å sjekke filtypene siden koden bare åpner XLSX-filer. For å sjekke disse filene kan du bruke en Hvis uttalelse.
Bruke slutter med funksjon for dette formålet, som følger:
for excel_filer i excel_file_list:
if excel_files.endswith(".xlsx"):
- excel_filer: Liste med alle filverdiene
- slutter med: Funksjon for å sjekke utvidelsen av filene
- (".xlsx"): Denne strengverdien kan endres, avhengig av hva du vil søke etter
Nå som du har identifisert Excel-filene, kan du opprette en ny dataramme for å lese og lagre filene individuelt.
for excel_filer i excel_file_list:
if excel_files.endswith(".xlsx"):
df1 = pd.read_excel (input_file_path+excel_files)
- df1: Ny dataramme
- pd: Pandas bibliotek
- read_excel: Funksjon for å lese Excel-filer i Pandas-biblioteket
- input_file_path: Banen til mappen der filene er lagret
- excel_filer: Enhver variabel som brukes i for-løkken
For å begynne å legge til filene, må du bruke legge til funksjon.
for excel_filer i excel_file_list:
if excel_files.endswith(".xlsx"):
df1 = pd.read_excel (input_file_path+excel_files)
df = df.append (df1)
Til slutt, nå som den konsoliderte datarammen er klar, kan du eksportere den til utdatastedet. I dette tilfellet eksporterer du datarammen til en XLSX-fil.
df.to_excel (output_file_path+"Consolidated_file.xlsx")
- df: Dataramme for eksport
- å utmerke seg: Kommando som brukes til å eksportere dataene
- output_file_path: Bane definert for lagring av utdata
- Consolidated_file.xlsx: Navnet på den konsoliderte filen
La oss nå se på den endelige koden:
#Pandas brukes som en dataramme for å håndtere Excel-filer
importer pandaer som pd
importere os# endre skråstreken fra "\" til "/", hvis du bruker Windows-enheter
input_file_path = "C:/Brukere/gaurav/OneDrive/Desktop/Excel-filer/"
output_file_path = "C:/Brukere/gaurav/OneDrive/Desktop/"#opprett en liste for å lagre alle filreferansene til inndatamappen ved å bruke listdir-funksjonen fra os-biblioteket.
#For å se innholdet i et bibliotek (som listdir-funksjonen kan du bruke dir-funksjonen på biblioteknavnet).
#Bruk dir (library_name) for å liste innholdexcel_file_list = os.listdir (input_file_path)
#skriv ut alle filene som er lagret i mappen, etter å ha definert listen
excel_file_list#Når hver fil åpnes, bruk tilføy-funksjonen for å begynne å konsolidere dataene som er lagret i flere filer
#opprett en ny, tom dataramme for å håndtere Excel-filimportene
df = pd. Dataramme()#Kjør en for loop til loop gjennom hver fil i listen
for excel_filer i excel_file_list:
#sjekk kun for .xlsx-suffiksfiler
if excel_files.endswith(".xlsx"):
#lag en ny dataramme for å lese/åpne hver Excel-fil fra listen over filer opprettet ovenfor
df1 = pd.read_excel (input_file_path+excel_files)
#legg til hver fil i den originale tomme datarammen
df = df.append (df1)
#transfer endelig utdata til en Excel-fil (xlsx) på utdatabanen
df.to_excel (output_file_path+"Consolidated_file.xlsx")
Bruke Python til å kombinere flere Excel-arbeidsbøker
Pythons Pandas er et utmerket verktøy for både nybegynnere og avanserte brukere. Biblioteket brukes mye av utviklere som ønsker å mestre Python.
Selv om du er nybegynner, kan du ha stor nytte av å lære nyansene til Pandas og hvordan biblioteket brukes i Python.
Få taket på Pandas med disse nybegynneroperasjonene.
Les Neste
- Programmering
- Python
- Microsoft Excel
- Regneark
Gaurav Siyal har to års skriveerfaring, og har skrevet for en rekke digitale markedsføringsfirmaer og programvarelivssyklusdokumenter.
Abonner på vårt nyhetsbrev
Bli med i vårt nyhetsbrev for tekniske tips, anmeldelser, gratis e-bøker og eksklusive tilbud!
Klikk her for å abonnere