AI-modeller er bare så gode som dataene som går inn i dem. Det gjør disse dataene til et potensielt mål for angrep.
Fremskritt innen kunstig intelligens har hatt en betydelig innflytelse på forskjellige felt. Dette har gitt ganske mange teknologientusiaster grunn til bekymring. Ettersom disse teknologiene utvides til forskjellige applikasjoner, kan de resultere i en økning i motstandsangrep.
Hva er motstandsangrep innen kunstig intelligens?
Motstridende angrep utnytter spesifikasjoner og sårbarheter i AI-modeller. De ødelegger dataene som AI-modeller har lært av og får disse modellene til å generere unøyaktige utdata.
Tenk deg at en skøyer endrer scrabble-fliser arrangert som ananas til å bli "applepine". Dette ligner på det som skjer ved motstandsangrep.
For noen år siden var det normen å få noen feil svar eller utdata fra en AI-modell. Det motsatte er tilfellet nå, ettersom unøyaktigheter har blitt unntaket, med AI-brukere som forventer nesten perfekte resultater.
Når disse AI-modellene brukes på scenarier i den virkelige verden, kan unøyaktigheter være fatale, noe som gjør motstridende angrep svært farlige. For eksempel kan klistremerker på trafikkskilt forvirre en autonom selvkjørende bil og få den til å bevege seg inn i trafikken eller direkte inn i en hindring.
Typer motstandsangrep
Det finnes ulike former for motstandsangrep. Med økende integrering av AI i hverdagsapplikasjoner, vil disse angrepene sannsynligvis bli verre og mer komplekse.
Ikke desto mindre kan vi grovt klassifisere motstridende angrep i to typer basert på hvor mye trusselaktøren vet om AI-modellen.
1. White Box-angrep
I white box angrep, har trusselaktører fullstendig kunnskap om AI-modellens indre funksjoner. De kjenner dens spesifikasjoner, treningsdata, prosesseringsteknikker og parametere. Denne kunnskapen gjør dem i stand til å bygge et motstandsangrep spesielt for modellen.
Det første trinnet i et white box-angrep er å endre de originale treningsdataene, og ødelegge dem på minst mulig måte. De modifiserte dataene vil fortsatt være svært like originalen, men betydelige nok til å få AI-modellen til å gi unøyaktige resultater.
Det er ikke alt. Etter angrepet evaluerer trusselaktøren modellens effektivitet ved å gi den motstridende eksempler –forvrengte input designet for å få modellen til å gjøre feil-og analyserer resultatet. Jo mer unøyaktig resultatet, jo mer vellykket angrepet.
2. Black Box-angrep
I motsetning til i white box-angrep, hvor trusselaktøren vet om AI-modellens indre funksjoner, gjerningsmenn svarte boks-angrep aner ikke hvordan modellen fungerer. De observerer ganske enkelt modellen fra en blindsone, og overvåker dens inngangs- og utgangsverdier.
Det første trinnet i et black box-angrep er å velge inngangsmålet AI-modellen vil klassifisere. Trusselaktøren lager deretter en ondsinnet versjon av input ved å legge til nøye utformet støy, forstyrrelser i dataene som er usynlige for det menneskelige øyet, men som er i stand til å forårsake AI-modellen funksjonsfeil.
Den ondsinnede versjonen mates til modellen, og utgangen blir observert. Resultatene gitt av modellen hjelper trusselaktøren til å fortsette å modifisere versjonen til de er sikre nok til at den vil feilklassifisere alle data som mates inn i den.
Teknikker som brukes i motstandsangrep
Ondsinnede enheter kan bruke forskjellige teknikker for å utføre motstridende angrep. Her er noen av disse teknikkene.
1. Forgiftning
Angripere kan manipulere (forgifte) en liten del av en AI-modells inndata for å kompromittere treningsdatasettene og nøyaktigheten.
Det finnes flere former for forgiftning. En av de vanlige kalles bakdørsforgiftning, hvor svært lite treningsdata påvirkes. AI-modellen fortsetter å gi svært nøyaktige resultater inntil den "aktiveres" for feil ved kontakt med spesifikke triggere.
2. Unnvikelse
Denne teknikken er ganske dødelig, siden den unngår oppdagelse ved å gå etter AIs sikkerhetssystem.
De fleste AI-modeller er utstyrt med anomalideteksjonssystemer. Unngåelsesteknikker benytter seg av motstridende eksempler som går direkte etter disse systemene.
Denne teknikken kan være spesielt farlig mot kliniske systemer som autonome biler eller medisinske diagnostikkmodeller. Dette er felt der unøyaktigheter kan få alvorlige konsekvenser.
3. Overførbarhet
Trusselaktører som bruker denne teknikken trenger ikke forkunnskaper om AI-modellens parametere. De bruker motstandsangrep som har vært vellykkede tidligere mot andre versjoner av modellen.
For eksempel, hvis et motstridende angrep får en bildeklassifiseringsmodell til å forveksle en skilpadde for en rifle, kan det nøyaktige angrepet føre til at andre bildeklassifiseringsmodeller gjør den samme feilen. De andre modellene kunne ha blitt trent på et annet datasett og til og med ha en annen arkitektur, men kan fortsatt bli offer for angrepet.
4. Surrogati
I stedet for å gå etter modellens sikkerhetssystemer ved å bruke unndragelsesteknikker eller tidligere vellykkede angrep, kan trusselaktøren bruke en surrogatmodell.
Med denne teknikken lager trusselaktøren en identisk versjon av målmodellen, en surrogatmodell. Resultatene, parametrene og atferden til en surrogat må være identisk med den originale modellen som har blitt kopiert.
Surrogatet vil nå bli utsatt for ulike motstandsangrep inntil man får det til å gi et unøyaktig utfall eller utføre en feilklassifisering. Deretter vil dette angrepet bli brukt på den originale mål-AIen.
Hvordan stoppe motstandsangrep
Forsvar mot kontradiktoriske angrep kan være komplekst og tidkrevende ettersom trusselaktører bruker ulike former og teknikker. Følgende trinn kan imidlertid forhindre og stoppe motstridende angrep.
1. Motstridende trening
Det mest effektive trinnet som kan forhindre motstridende angrep er motstridende trening, opplæring av AI-modeller og maskiner ved hjelp av motstridende eksempler. Dette forbedrer robustheten til modellen og lar den være motstandsdyktig mot de minste inngangsforstyrrelser.
2. Regelmessig revisjon
Det er nødvendig å regelmessig sjekke for svakheter i en AI-modells anomalideteksjonssystem. Dette innebærer bevisst å mate modellen med motstridende eksempler og overvåke modellens oppførsel til ondsinnede input.
3. Datarensing
Denne metoden innebærer å sjekke for ondsinnede input som mates inn i modellen. Etter å ha identifisert dem, må de fjernes umiddelbart.
Disse dataene kan identifiseres ved hjelp av inputvalidering, som innebærer å sjekke dataene for mønstre eller signaturer til tidligere kjente kontradiktoriske eksempler.
4. Sikkerhetsoppdateringer
Det ville være vanskelig å gå galt med sikkerhetsoppdateringer og oppdateringer. Flerlags sikkerhet som brannmurer, anti-malware-programmer og inntrengningsdeteksjon og -forebyggende systemer kan bidra til å blokkere ekstern interferens fra trusselaktører som ønsker å forgifte en AI-modell.
Motstandsangrep kan være en verdig motstander
Konseptet med motstridende angrep utgjør et problem for avansert læring og maskinlæring.
Som et resultat skal AI-modeller være bevæpnet med forsvar som motstandertrening, regelmessig revisjon, datasanering og relevante sikkerhetsoppdateringer.