Annonse

Å trekke tekst ut av bilder har aldri vært enklere enn det er i dag takket være OCR-teknologi (optisk karaktergjenkjenning).

OCR lar oss gjøre alle slags nyttige ting, for eksempel å søke etter bilder ved hjelp av tekstforespørsler, reprodusere dokumenter uten å skrive dem ut for hånd, og til og med konvertere håndskrevet tekst til digital tekst Hvordan konvertere et bilde med håndskrift til tekst ved hjelp av OCRTrenger du å digitalisere håndskrevne notater for redigering eller lagre dem til senere? Her er de beste OCR-verktøyene for å konvertere håndskrift til tekst. Les mer .

Men hva er optisk karaktergjenkjenning? Hvordan fungerer det egentlig? Det kan virke som svart magi for deg, men mot slutten av denne artikkelen vil du ha en solid forståelse av hvordan datamaskiner kan gjenkjenne bokstaver og ord.

Hvordan optisk karaktergjenkjenning fungerer

For å forstå hvordan tekst blir hentet ut fra et bilde, må vi først forstå hva bilder er og hvordan de er lagret på datamaskiner.

EN pixel

instagram viewer
er en enkelt prikk i en bestemt farge. en bilde er egentlig en samling piksler. Jo flere piksler i et bilde, jo høyere oppløsning. En datamaskin vet ikke at et bilde av en skilting virkelig er en skilting - den vet bare at den første pikselen er denne fargen, den neste pikselbildet er den fargen, og viser alle bildepunktene du kan se.

Dette betyr at tekst og ikke-tekst ikke er forskjellig fra en datamaskin, og det er derfor optisk karaktergjenkjenning er så vanskelig. Med det i tankene, slik fungerer det.

Trinn 1: Forbehandle bildet

Før tekst kan trekkes, må bildet masseres på visse måter for å gjøre utvinning enklere og mer sannsynlig å lykkes. Dette kalles forbehandling, og forskjellige programvareløsninger bruker forskjellige kombinasjoner av teknikker.

De mer vanlige forbehandlingsteknikkene inkluderer:

Binarization
Hver eneste piksel i bildet konverteres til enten svart eller hvitt. Målet er å tydeliggjøre hvilke piksler som hører til tekst og hvilke piksler som hører til bakgrunnen, noe som fremskynder selve OCR-prosessen.

Binærisering for anerkjennelse av optisk karakter

forskyvningskorrigering
Siden dokumenter sjelden blir skannet med perfekt justering, kan tegn havne skrått eller til og med opp-ned. Målet her er å identifisere horisontale tekstlinjer og deretter rotere bildet slik at disse linjene faktisk er horisontale.

Støvfjernar
Enten bildet er binærisert eller ikke, kan det være støy som kan forstyrre identifikasjonen av tegn. Despeckling blir kvitt den støyen og prøver å jevne ut bildet.

Linjefjerning
Identifiserer alle linjer og markeringer som sannsynligvis ikke er tegn, og fjerner dem deretter slik at den faktiske OCR-prosessen ikke blir forvirret. Det er spesielt viktig når du skanner dokumenter med tabeller og bokser.

reguleringsplan
Separerer bildet i tydelige deler av tekst, for eksempel å identifisere kolonner i dokumenter med flere kolonner.

Regulering for anerkjennelse av optisk karakter
Bildekreditt: WayneRay /Wikimedia

Trinn 2: Behandle bildet

Første ting først prøver OCR-prosessen å etablere grunnlinjen for hver tekstlinje i bildet (eller hvis den ble sonet under forbehandlingen, vil den fungere gjennom hver sone én om gangen). Hver identifiserte linje med tegn håndteres én etter én.

For hver linje med tegn identifiserer OCR-programvaren avstanden mellom tegn ved å lete etter vertikale linjer med ikke-tekstpiksler (noe som skal være åpenbart med riktig binærisering). Hver bit med piksler mellom disse ikke-tekstlinjene er merket som et “token” som representerer ett tegn. Derfor kalles dette trinnet tokenization.

Bildebehandling for optisk karaktergjenkjenning

Når alle potensielle tegn i bildet er tokenisert, kan OCR-programvaren bruke to forskjellige teknikker for å identifisere hvilke tegn disse symbolene faktisk er:

Mønstergjenkjenning
Hvert symbol blir sammenlignet piksel til piksel mot et helt sett med kjente glyfer - inkludert tall, tegnsetting og andre spesielle symboler - og den nærmeste kampen blir valgt. Denne teknikken er også kjent som matrix matching.

Det er flere ulemper her. For det første trenger symbolene og glyfene å være av samme størrelse, ellers vil ingen av dem samsvare. For det andre må tokenene være i en lignende skrift som glyfene, som utelukker håndskrift. Men hvis symbolets skrift er kjent, kan mønstergjenkjenning være rask og nøyaktig.

Funksjonsekstraksjon
Hvert symbol blir sammenlignet med forskjellige regler som beskriver hva slags karakter det kan være. For eksempel er det sannsynlig at to loddrette linjer med lik høyde koblet sammen med en enkelt horisontal linje vil være en hovedstad H.

Denne teknikken er nyttig fordi den ikke er begrenset til bestemte skrifter eller størrelser. Det kan også være mer nyansert når man gjenkjenner de subtile forskjellene mellom en hovedstor I, små bokstaver L og tallet 1. Ulempen? Programmering av reglene er mye mer komplisert enn å bare sammenligne pikslene i et symbol med pikslene i en glyph.

Trinn 3: Etterbehandling av bildet

Når all token matching er fullført, kan OCR-programvaren bare kalle det en dag og presentere resultatene for deg. Men vanligvis må det gjøres litt mer fudging for å forsikre deg om at du ikke ruller øynene for gibberish resultater.

Leksikalsk begrensning
Alle ord blir sammenlignet med et leksikon av godkjente ord, og alle som ikke stemmer, erstattes med det nærmeste passende ordet. En ordbok er ett eksempel på et leksikon. Dette kan hjelpe til med å rette ord med feilaktige tegn, som "torn" i stedet for "thorn".

Applikasjonsspesifikke optimaliseringer
Når OCR brukes i nisjeinnstillinger, for eksempel for medisinske eller juridiske dokumenter, kan en spesiell type OCR brukes som er spesielt designet for den innstillingen. I disse tilfellene kan OCR-programvaren se etter matematisk likning, bransjespesifikke vilkår, etc.

Naturlig språk
Denne avanserte teknikken korrigerer setninger ved å bruke en språkmodell som beskriver hvor sannsynlig visse ord skal følges av andre ord. Det ligner på teknologien som spår hvilket ord du vil skrive neste på et mobilt tastatur.

Når du gjør det bra, kan dette resultere i tekst som er bemerkelsesverdig lesbar.

Anbefalte verktøy for anerkjennelse av optiske tegn

Nå som du vet hvordan OCR fungerer, skal det være lett å se at ikke alle OCR-verktøy blir gjort like. Nøyaktigheten av resultatene dine vil avhenge sterkt av hvor godt programvaren implementerer de forskjellige OCR-teknikkene som er omtalt i denne artikkelen.

Vi anbefaler OneNote på det sterkeste for dette, som bare er en grunn hvorfor det slår Evernote for notater Evernote vs. OneNote: Hvilken notat-app er riktig for deg?Evernote og OneNote er fantastiske notat-apper. Det er vanskelig å velge mellom de to. Vi sammenlignet alt fra grensesnitt til notatorganisasjon for å hjelpe deg med å velge. Hva fungerer best for deg? Les mer . Hvis du er villig til å betale for en premium-løsning, bør du vurdere OmniPage. Se vår sammenligning av OneNote vs. OmniPage for OCR Gratis vs. Betalt OCR-programvare: Microsoft OneNote og Nuance OmniPage sammenlignetOCR-skannerprogramvare lar deg konvertere tekst i bilder eller PDF-filer til redigerbare tekstdokumenter. Er et gratis OCR-verktøy som OneNote godt nok? La oss finne det ut! Les mer . For mobildokumenter vil du sjekke ut disse OCR-apper for Android-enheter 6 beste Android OCR-apper for å trekke ut tekst fra bilderTrenger du å digitalisere en hvilken som helst trykt tekst, slik at du kan beholde en myk kopi av den? I så fall er alt du trenger et OCR-verktøy. Les mer .

Hvordan bruker du OCR? Har du noen favoritt OCR-verktøy vi ikke nevnte? Gi oss beskjed i kommentarene nedenfor!

Joel Lee har en B.S. innen informatikk og over seks års profesjonell skriveerfaring. Han er sjefredaktør for MakeUseOf.