Denne store språkmodellen har blitt trent på det mørke nettet for å vurdere trusler om cybersikkerhet. Her er det du trenger å vite.

Populariteten til store språkmodeller (LLM) er skyhøye, og nye kommer stadig inn på scenen. Disse modellene, som ChatGPT, er vanligvis trent på ulike internettkilder, inkludert artikler, nettsteder, bøker og sosiale medier.

I et enestående grep utviklet et team av sørkoreanske forskere DarkBERT, en LLM trent på datasett hentet utelukkende fra det mørke nettet. Målet deres var å lage et AI-verktøy som utkonkurrerer eksisterende språkmodeller og hjelper trusselforskere, rettshåndhevelse og cybersikkerhetspersonell med å bekjempe cybertrusler.

Hva er DarkBERT?

DarkBERT er en transformatorbasert kodermodell basert på RoBERTa-arkitekturen. LLM ble trent på millioner av mørke nettsider, inkludert data fra hackingfora, svindelnettsteder og andre nettkilder knyttet til ulovlige aktiviteter.

Begrepet "dark web" refererer til en skjult internettseksjon utilgjengelig via standard nettlesere. Underseksjonen er kjent for å huse anonyme nettsteder og markedsplasser beryktet for ulovlige aktiviteter, for eksempel handel med stjålne data, narkotika og våpen.

instagram viewer

For å trene DarkBERT, fikk forskerne tilgang til det mørke nettet gjennom Tor-nettverket og samlet inn rådata. De filtrerte disse dataene nøye ved å bruke teknikker som deduplisering, kategoribalansering og forhåndsbehandling til opprette en raffinert mørk nettdatabase, som deretter ble matet til RoBERTa i løpet av omtrent 15 dager for å lage DarkBERT.

Mulig bruk av DarkBERT i cybersikkerhet

DarkBERT har en bemerkelsesverdig forståelse av nettkriminelles språk og utmerker seg med å oppdage spesifikke potensielle trusler. Den kan undersøke det mørke nettet og lykkes med å identifisere og flagge cybersikkerhetstrusler som datalekkasjer og løsepengevare, noe som gjør det til et potensielt nyttig verktøy for å bekjempe cybertrusler.

For å evaluere effektiviteten til DarkBERT, sammenlignet forskere den med to anerkjente NLP-modeller, BERT og RobERTa, som vurderer ytelsen deres på tvers av tre viktige cybersikkerhetsrelaterte brukssaker, forskningen, postet på arxiv.org, indikerer.

1. Overvåk Dark Web-fora for potensielt skadelige tråder

Overvåking av mørke nettfora, som ofte brukes til å utveksle ulovlig informasjon, er avgjørende for å identifisere potensielt farlige tråder. Manuell gjennomgang av disse kan imidlertid være tidkrevende, noe som gjør automatisering av prosessen gunstig for sikkerhetseksperter.

Forskerne fokuserte på potensielt skadelige aktiviteter i hackingfora, og utarbeidet retningslinjer for kommentarer for bemerkelsesverdige tråder, inkludert deling av konfidensielle data og distribusjon av kritisk skadelig programvare eller sårbarheter.

DarkBERT utkonkurrerte andre språkmodeller når det gjelder presisjon, tilbakekalling og F1-score, og dukket opp som det overlegne valget for å identifisere bemerkelsesverdige tråder på det mørke nettet.

2. Oppdag nettsteder som er vert for konfidensiell informasjon

Hackere og løsepengevaregrupper bruker det mørke nettet til å lage lekkasjesider, der de publiserer konfidensielle data stjålet fra organisasjoner som nekter å etterkomme krav om løsepenger. Andre nettkriminelle laster bare opp lekkede sensitive data, som passord og finansiell informasjon, til det mørke nettet med den hensikt å selge det.

I sin studie har forskerne samlet inn data fra beryktede løsepengevaregrupper og analyserte ransomware-lekkasjesider som publiserer organisasjoners private data. DarkBERT utkonkurrerte andre språkmodeller når det gjaldt å identifisere og klassifisere slike nettsteder, og viste frem sin forståelse av språket som brukes i underjordiske hackingfora på det mørke nettet.

DarkBERT utnytter fyllmaskefunksjonen, en iboende funksjon i BERT-familiens språkmodeller, for å nøyaktig identifisere nøkkelord knyttet til ulovlige aktiviteter, inkludert narkotikasalg på det mørke nettet.

Da ordet "MDMA" ble maskert på en narkotikasalgsside, genererte DarkBERT narkotikarelaterte ord, mens andre modeller foreslo generelle ord og termer som ikke var relatert til narkotika, som ulike yrker.

DarkBERTs evne til å identifisere nøkkelord relatert til ulovlige aktiviteter kan være verdifull for å spore og adressere nye cybertrusler.

Er DarkBERT tilgjengelig for allmennheten?

DarkBERT er foreløpig utilgjengelig for publikum, men forskerne er åpne for forespørsler om å bruke den til akademiske formål.

Utnytt kraften til AI for trusseldeteksjon og forebygging

DarkBERT har blitt forhåndsopplært på mørke nettdata og overgår eksisterende språkmodeller på tvers av flere brukssaker for cybersikkerhet, og posisjonerer seg som et avgjørende verktøy for å fremme mørk nettforskning.

Den mørke nett-trente AI-en har potensial til å bli brukt til ulike cybersikkerhetsoppgaver, inkludert identifisering av nettsteder som selger lekket konfidensielle data, overvåking av mørke nettfora for å oppdage ulovlig informasjonsdeling og identifisere nøkkelord relatert til cyber trusler.

Men du bør alltid huske at DarkBERT, i likhet med andre LLM-er, er et arbeid som pågår, og ytelsen kan forbedres gjennom kontinuerlig trening og finjustering.