Når et menneske ser på en scene eller et bilde, forstår de det - hvilke gjenstander som er i det og hva som skjer hvis det skjer handling. En datamaskin, derimot, behandler bare digitale data som beskriver fargeverdien til hver piksel. For et menneske er det uanstrengt å gjenkjenne en pizza på et rotete bord. Men inntil nylig kunne datamaskiner ikke utføre den samme oppgaven.

Computer vision, eller CV, gjør det mulig for en datamaskin å kunne plukke ut viktig informasjon fra visuelle innganger og komme med nøyaktige spådommer og anbefalinger basert på den informasjonen.

Hvordan fungerer datasyn?

For å lage et program som gjenkjente et bestemt bilde før datamaskinsynet, måtte en person utføre timer med manuelt benarbeid. For det første må en database med lignende bilder samles.

Deretter må disse bildene analyseres manuelt, måles og kommenteres med relevante data at forskeren trodde kunne identifisere det aktuelle objektet (som farge, målinger og form). Først da kunne programvare brukes til å komme med spådommer.

instagram viewer

På den annen side automatiserer datasyn hele prosessen ved hjelp av en maskinlæringsmetode kjent som dyp læring. Dyp læring bruker et flerlags nevrale nettverk med hundrevis av potensielle lag. Når det gjelder bilder, er dette vanligvis et konvolusjonalt nevralt nettverk (CNN).

Å forklare i detalj hvordan dyp læring og nevrale nettverk fungerer, ligger langt utenfor omfanget av denne artikkelen. I utgangspunktet blir store mengder data matet inn i nevrale nettverk. Nevrale nettverk analyserer dataene gjentatte ganger til de kan danne nøyaktige spådommer om det.

I tilfelle av en CNN som brukes til en datamaskinsynsoppgave, tar nevrale nettverk dataene gjennom flere trinn. For det første kollapser det bildet i flere biter (individuelle piksler eller grupper av piksler som er merket på forhånd).

Deretter gir det spådommer om hva som er i forskjellige deler av bildet (som harde kanter eller spesifikke objekter). Den sjekker nøyaktigheten av disse spådommene gjentatte ganger og endrer deler av algoritmen litt hver gang til den blir veldig nøyaktig.

Datamaskiner er nå så kraftige at de kan analysere et bilde mye raskere enn den menneskelige hjerne, spesielt når de har lært å gjenkjenne visse mønstre. På denne måten er det lett å se hvordan en dyp læringsalgoritme kan overgå menneskelige evner.

Hva er typene datamaskinsyn?

Datasyn innebærer å analysere og forstå bilder og utdata fra relevante spådommer eller beslutninger om bildene. Det er forskjellige oppgaver som datasynet vil bruke for å nå disse målene. Noen av disse inkluderer:

  • Bildeklassifisering: Bildetypen gjenkjennes. For eksempel om det er en persons ansikt, landskap eller objekt. Denne typen oppgaver kan brukes til å identifisere og klassifisere bilder raskt. En bruk for dette er å automatisk gjenkjenne og blokkere upassende innhold på sosiale medier.
  • Objektgjenkjenning: I likhet med bildeklassifisering kan gjenkjenning av gjenstander identifisere et bestemt objekt i en scene - som en pizza på et rotete bord.
  • Kantregistrering: En vanlig bruk av datasyn, og vanligvis det første trinnet i gjenkjenning av objekter, er å identifisere de harde kantene i et bilde.
  • Objektidentifikasjon: Dette er anerkjennelsen av individuelle eksempler på et objekt eller bilde, som å identifisere en bestemt person, fingeravtrykk eller kjøretøy.
  • Objektdeteksjon: Deteksjon er identifikasjon av et bestemt trekk i et bilde, som et beinbrudd i en røntgen.
  • Objektsegmentering: Dette er identifikasjonen av hvilke piksler i bildet som tilhører objektet det gjelder.
  • Objektsporing: Når en gjenstand er gjenkjent i en videosekvens, kan den enkelt spores gjennom hele videoen.
  • Bildegjenoppretting: Uklarhet, støy og andre bildeartefakter kan fjernes ved å nøyaktig identifisere hvor objektet mot bakgrunnen er i bildet.

Eksempler på Computer Vision

Kunstig intelligens er allerede brukt i flere bransjer med en svimlende effekt, noe som er sant for datasyn. Her er noen eksempler på CV som allerede er brukt i dag.

Ansiktsgjenkjenning

Ansiktsgjenkjenning er en av de viktigste måtene som datasyn brukes i dag. Sammenlignet med databaser med kjente ansikter, kan datasynsalgoritmer veldig nøyaktig identifisere enkeltpersoner.

  • Sosiale medier analyserer bilder og merker automatisk brukere som de har et godt utvalg av bilder til.
  • Bærbare datamaskiner, telefoner og sikkerhetsenheter kan identifisere personer som gir tilgang.
  • Politi bruker ansiktsgjenkjenning i CCTV-systemer for å identifisere mistenkte.

Medisin

Datasyn brukes for tiden i helsevesenet for å gi raskere og mer nøyaktige diagnoser enn eksperter kan stille. Mange applikasjoner involverer å analysere røntgen-, CT- eller MR-bilder for spesielle forhold, inkludert nevrologiske sykdommer, svulster og knuste eller knuste bein.

Selvkjørende biler

Autonome kjøretøy trenger å forstå omgivelsene å kjøre trygt. Dette betyr å gjenkjenne veier, kjørefelt, trafikksignaler, andre kjøretøy, fotgjengere og mer. Alle disse oppgavene bruker datasynssystemer i sanntid for å unngå kollisjoner og kjøre trygt.

Datasyn er utfordrende

De nåværende applikasjonene av datasyn begynner allerede å forandre måten vi jobber i forskjellige bransjer. Fra å kunne oppdage feil eller ødelagt utstyr til nøyaktig diagnostisering av kreft, har datasyn evnen til å forbedre systemer og redde liv.

Men det er ikke uten utfordringer. Datasyn er fortsatt langt fra hva menneskelig syn er. Vi har tusenvis av år med evolusjon som gjør det mulig for oss å gjenkjenne og forstå nesten alt som skjer rundt oss i sanntid. Men vi aner ikke hvordan menneskelige hjerner utfører disse oppgavene.

Dyp læring er et massivt skritt i riktig retning, men det krever fortsatt utrolig mye arbeid å lage et system som kan utføre en oppgave som mennesker kan gjøre veldig enkelt, som å identifisere en bil på vei. Dette er fordi datamaskiner utfører begrensede oppgaver veldig effektivt. Å utvikle en datamaskin som kan forstå den totale kompleksiteten i den visuelle verden er et helt annet ballspill.

Etter hvert som mer forskning går på både AI-applikasjoner og menneskelig biologi, vil vi sannsynligvis se en eksplosjon av mulige bruksområder for datasyn i nær fremtid.

E-post
Hva er maskinlæringsalgoritmer? Slik fungerer de

Maskinlæringsalgoritmer er designet for å gjøre livet enklere og forbedre systemer, men de kan gå galt med dårlige konsekvenser.

Les Neste

Relaterte temaer
  • Teknologi forklart
  • Programmering
  • Kunstig intelligens
  • Nevrale nettverk
Om forfatteren
Jake Harfield (16 artikler publisert)

Jake Harfield er frilansskribent med base i Perth, Australia. Når han ikke skriver, er han vanligvis ute i busken og fotograferer det lokale dyrelivet. Du kan besøke ham på www.jakeharfield.com

Mer fra Jake Harfield

Abonner på vårt nyhetsbrev

Bli med på nyhetsbrevet vårt for tekniske tips, anmeldelser, gratis e-bøker og eksklusive tilbud!

Ett steg til…!

Bekreft e-postadressen din i e-posten vi nettopp sendte deg.

.