Du har kanskje hørt om motstridende angrep i forhold til kunstig intelligens og maskinlæring, men hva er de? Hva er deres mål?

Teknologi betyr ofte at livene våre er mer praktiske og trygge. Samtidig har slike fremskritt imidlertid åpnet for mer sofistikerte måter for nettkriminelle å angripe oss og korrumpere sikkerhetssystemene våre, noe som gjør dem maktesløse.

Kunstig intelligens (AI) kan brukes av cybersikkerhetsfagfolk og cyberkriminelle; på samme måte kan maskinlæringssystemer (ML) brukes på både godt og ondt. Denne mangelen på moralsk kompass har gjort motstridende angrep i ML til en økende utfordring. Så hva er egentlig motstridende angrep? Hva er hensikten deres? Og hvordan kan du beskytte deg mot dem?

Hva er motstandsangrep i maskinlæring?

Adversarial ML eller adversarial attacks er cyberangrep som har som mål å lure en ML-modell med ondsinnet input og dermed føre til lavere nøyaktighet og dårlig ytelse. Så, til tross for navnet, er ikke motstridende ML en type maskinlæring, men en rekke teknikker som nettkriminelle – også kjent som motstandere – bruker for å målrette mot ML-systemer.

instagram viewer

Hovedmålet med slike angrep er vanligvis å lure modellen til å dele ut sensitiv informasjon, unnlater å oppdage uredelige aktiviteter, produserer uriktige spådommer eller korrumperer analysebasert rapporter. Selv om det finnes flere typer motstandsangrep, er de ofte rettet mot dyp læringsbasert spamdeteksjon.

Du har sikkert hørt om en motstander-i-midten angrep, som er en ny og mer effektiv sofistikert phishing-teknikk som involverer tyveri av privat informasjon, øktinformasjonskapsler og til og med omgåelse av multi-faktor autentisering (MFA) metoder. Heldigvis kan du bekjempe disse med phishing-resistent MFA-teknologi.

Typer motstandsangrep

Den enkleste måten å klassifisere typer motstandsangrep på er å dele dem inn i to hovedkategorier—målrettede angrep og umålrettede angrep. Som antydet har målrettede angrep et spesifikt mål (som en bestemt person), mens ikke-målrettede angrep ikke har noen spesifikke i tankene: de kan målrette mot nesten hvem som helst. Ikke overraskende er umålrettede angrep mindre tidkrevende, men også mindre vellykkede enn deres målrettede motparter.

Disse to typene kan deles inn ytterligere i hvit boks og svart boks motstridende angrep, der fargen antyder kunnskapen eller mangelen på kunnskap om den målrettede ML-modellen. Før vi dykker dypere inn i white-box- og black-box-angrep, la oss ta en rask titt på de vanligste typene motstandsangrep.

  • Unnvikelse: For det meste brukt i scenarier med skadelig programvare, forsøker unnvikelsesangrep å unngå oppdagelse ved å skjule innholdet i e-poster med skadelig programvare og spam. Ved å bruke prøv-og-feil-metoden, manipulerer angriperen dataene på tidspunktet for distribusjon og ødelegger konfidensialiteten til en ML-modell. Biometrisk spoofing er et av de vanligste eksemplene på et unndragelsesangrep.
  • Dataforgiftning: Også kjent som kontaminerende angrep, disse har som mål å manipulere en ML-modell i løpet av trenings- eller distribusjonsperioden, og redusere nøyaktighet og ytelse. Ved å introdusere ondsinnede input forstyrrer angripere modellen og gjør det vanskelig for sikkerhetseksperter å oppdage typen eksempeldata som ødelegger ML-modellen.
  • Bysantinske forkastninger: Denne typen angrep forårsaker tap av en systemtjeneste som et resultat av en bysantinsk feil i systemer som krever konsensus mellom alle nodene. Når en av dens pålitelige noder blir useriøs, kan den spise et tjenestenektangrep (DoS) og slå av systemet og hindre andre noder i å kommunisere.
  • Modelluttak:I et utvinningsangrep vil motstanderen undersøke et black-box ML-system for å trekke ut treningsdataene eller – i verste fall – selve modellen. Deretter, med en kopi av en ML-modell i hendene, kan en motstander teste sin skadevare mot antimalware/antivirus og finne ut hvordan man kan omgå den.
  • Slutningsangrep: Som med ekstraksjonsangrep, er målet her å få en ML-modell til å lekke informasjon om treningsdataene. Imidlertid vil motstanderen da prøve å finne ut hvilket datasett som ble brukt til å trene systemet, slik at de kan utnytte sårbarheter eller skjevheter i det.

White-Box vs. Black-Box vs. Grey-Box motstandsangrep

Det som skiller disse tre typene motstandsangrep er mengden kunnskap motstandere har om den indre funksjonen til ML-systemene de planlegger å angripe. Mens white-box-metoden krever uttømmende informasjon om den målrettede ML-modellen (inkludert dens arkitektur og parametere), krever black-box-metoden ingen informasjon og kan bare observere den utganger.

Gråboksmodellen står i mellomtiden i midten av disse to ytterpunktene. Ifølge den kan motstandere ha noe informasjon om datasettet eller andre detaljer om ML-modellen, men ikke alt.

Hvordan kan du forsvare maskinlæring mot motstandsangrep?

Mens mennesker fortsatt er den kritiske komponenten i å styrke cybersikkerhet,AI og ML har lært hvordan de kan oppdage og forhindre ondsinnede angrep– de kan øke nøyaktigheten til å oppdage ondsinnede trusler, overvåke brukeraktivitet, identifisere mistenkelig innhold og mye mer. Men kan de presse tilbake motstridende angrep og beskytte ML-modeller?

En måte vi kan bekjempe nettangrep på er å trene ML-systemer til å gjenkjenne motstandsangrep på forhånd ved å legge til eksempler i opplæringsprosedyren deres.

I motsetning til denne brute force-tilnærmingen, foreslår den defensive destillasjonsmetoden at vi bruker den primære, mer effektive modellen for å finne ut ut de kritiske egenskapene til en sekundær, mindre effektiv modell og forbedrer deretter nøyaktigheten til den sekundære med den primære en. ML-modeller trent med defensiv destillasjon er mindre følsomme for motstandsprøver, noe som gjør dem mindre utsatt for utnyttelse.

Vi kan også hele tiden endre algoritmene ML-modellene bruker for dataklassifisering, noe som kan gjøre motstridende angrep mindre vellykkede.

En annen bemerkelsesverdig teknikk er funksjonsklemming, som vil kutte ned søkeplassen som er tilgjengelig for motstandere ved å "klemme ut" unødvendige inndatafunksjoner. Her er målet å minimere falske positiver og gjøre gjenkjenning av motstridende eksempler mer effektiv.

Beskyttelse av maskinlæring og kunstig intelligens

Motstridende angrep har vist oss at mange ML-modeller kan knuses på overraskende måter. Tross alt er motstridende maskinlæring fortsatt et nytt forskningsfelt innen cybersikkerhet, og det kommer med mange komplekse problemer for AI og ML.

Selv om det ikke finnes en magisk løsning for å beskytte disse modellene mot alle motstandere, fremtiden vil sannsynligvis bringe mer avanserte teknikker og smartere strategier for å takle dette forferdelige motpart.