Hvis du er student eller arbeidet ditt innebærer å jobbe med mange bilder og PDF-er, ville du på et tidspunkt ha følt behovet for å trekke ut tekst fra et bilde eller et dokument.

Heldigvis gjør tekstutvinning dette mulig. Og det er flere verktøy du kan bruke for å gjøre dette. gImageReader er et av de mange verktøyene. Det er gratis å bruke og fungerer med både bildefiler og PDF-dokumenter.

La oss dykke inn for å sjekke ut gImageReader i detalj og se hvordan du kan bruke den til å trekke ut tekst fra bilder og PDF-er.

Hva er gImageReader?

gImageReader er en app som lar deg trekke ut tekst fra bilder og PDF-filer på Linux. Det er egentlig en GUI eller front-end til Tesseract OCR-motoren, en åpen kilde motor utviklet av Hewlett-Packard som regnes for å være en av de beste OCR-motorene som er tilgjengelige.

Med gImageReader kan du enkelt og ganske nøyaktig trekke ut tekst fra bilder eller PDF-dokumenter med noen få enkle klikk. Du kan deretter eksportere den utpakkede teksten til en tekst- eller PDF-fil for videre bruk.

instagram viewer

Funksjoner i gImageReader

gImageReader pakker følgende funksjoner:

  • Importer PDF-dokumenter og bilder fra forskjellige kilder (disk, skanneenheter, utklippstavle og skjermbilde)
  • Batch behandle bilder eller dokumenter, dvs. trekke ut tekst fra flere bilder eller dokumenter samtidig
  • Gjenkjenne tekstbiter som ren tekst eller hOCR-dokumenter
  • Innebygd stavekontroll
  • Automatisk tekstområdegjenkjenning
  • Grunnleggende bilde-/dokumentredigering
  • Lagre utdata som en tekstfil

Hvordan installere gImageReader på Linux

gImageReader er tilgjengelig på de fleste store Linux-distroer. Men før du fortsetter med installasjonen, må du installere Tesseract OCR-motoren på systemet ditt.

For å gjøre dette, åpne Programvareleder på systemet ditt og søk etter tesseract. Når den returnerer en liste over resultater, installer tesseract-ocr og tesseract-ocr-eng pakker. Du kan også bruke kommandolinjepakkeadministratorer for å installere pakken hvis du er mer komfortabel med terminalen.

Etter dette, sjekk ut installasjonsinstruksjonene i de følgende delene for å installere gImageReader på datamaskinen din.

Hvis du er på Debian eller Ubuntu, åpne terminalen og kjør kommandoene nedenfor for å installere gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt- Oppdater
sudo apt installere gimagereader

På Fedora, CentOS eller Red Hat Enterprise Linux (RHEL):

sudo dnf installere gimagereader-qt 

Arch Linux eller Manjaro:

sudo pacman -S gimagereader

openSUSE-brukere kan installere gImageReader ved å bruke:

sudo zypper installere gimagereader

I tilfelle du bruker en annen Linux-distro, kan du bygge gImageReader fra kilden ved å følge instruksjonene på gImageReaders GitHub.

Slik bruker du gImageReader på Linux

gImageReader er ganske enkel å bruke og fungerer med alle slags bildefiler så vel som PDF-dokumenter. Følg instruksjonene nedenfor for å trekke ut tekst fra bilder eller PDF-filer på Linux.

Åpne applikasjonsmenyen, søk etter gImageReader, og start appen. Slå den Maksimer knappen i gImageReader-vinduet for å åpne den i fullskjermvisning.

Klikk nå på Legg til bilder knappen i venstre rute under verktøylinjen og bruk filleseren til å velge bildet(e) eller PDF(ene) som du vil trekke ut tekst fra.

Klikk Ok for å importere bildet(e) eller PDF(ene) til gImageReader. Eller, hvis du vil trekke ut tekst fra det som vises på skjermen, klikk på rullegardinmenyen ved siden av Legg til bilder knappen og velg Ta skjermbilde. gImageReader vil ta et skjermbilde av skjermens innhold.

Når du har lagt til bildet i gImageReader, klikker du på Bytt utdatarute knappen (en med notisblokkikonet) for å få opp utdataruten. Det er her teksten du trekker ut fra bilder eller PDF-er vises.

Avhengig av hvordan du vil gå frem, har du nå muligheten til å identifisere teksten i bildet eller PDF automatisk eller manuelt. For å gjøre dette automatisk, klikk på Autodetect layout -knappen, og den vil fremheve alle tekstblokkene i det valgte bildet eller PDF-dokumentet.

Etter dette, trykk på Gjenkjenne valg > Gjeldende side for å starte tekstutvinningsprosessen.

Alternativt, for å velge teksten manuelt, hold musepekeren over teksten du vil trekke ut, og bruk trådkorset til å tegne en boks rundt området der du vil trekke ut teksten. Deretter trykker du på Gjenkjenne utvalget knappen for å fortsette.

Hvis det er et PDF-dokument, og du vil trekke ut tekst fra forskjellige sider, trykker du på I tillegg til (+)-knappen for å snu sidene.

For å gå tilbake, trykk på Minus (-)-knappen. Og velg deretter teksten du vil trekke ut og trykk på Gjenkjenne utvalget knappen for å trekke den ut.

Selv om det er sjeldent, kan det hende at gImageReader returnerer den utpakkede teksten på et annet språk enn engelsk. Når dette skjer, trykk ganske enkelt på rullegardinknappen ved siden av Gjenkjenne utvalget og velg et av de engelske alternativene.

Til slutt, for å lagre den utpakkede teksten, klikk på Lagre utdata knapp. Dette vil få opp vinduet Lagre. Her, gi et navn til filen og trykk Ok.

Hva annet kan du gjøre med gImageReader?

Som nevnt tidligere, gir gImageReader deg også muligheten til å endre visse aspekter av de importerte bildene eller dokumentene, som lysstyrke, kontrast og oppløsning. I tillegg kan du også invertere farger eller rotere bildene eller dokumentene om nødvendig.

De fleste av disse alternativene kan vise seg å være nyttige når teksten i et bilde eller dokument ikke er lesbar for gImageReader, og derfor hindrer verktøyet i å gjenkjenne teksten.

For å få tilgang til noen av disse redigeringsalternativene, klikk på Bildekontroller knappen, og den vil vise en miniverktøylinje under hovedverktøylinjen. Herfra velger du de aktuelle knappene for å utføre ønsket redigeringsoperasjon på bildet eller dokumentet.

Tekstutvinning på Linux gjort enkelt med gImageReader

Tekstutvinning krever ofte det riktige verktøyet: et som bruker en pålitelig og nøyaktig OCR-motor som gjør det mulig å identifisere tekst i et bilde eller dokument effektivt, slik at du kan trekke den ut effektivt uten noen bryderi.

gImageReader oppnår dette bra, takket være Tesseract OCR-motoren den bruker i bakgrunnen. Med tanke på brukervennligheten, er gImageReader utvilsomt et av de beste tekstutvinningsverktøyene som er tilgjengelige for Linux.

Alternativt, hvis du leter etter en enklere løsning, kan du sjekke ut TextSnatcher, som er rask og ganske enkel å bruke.