Det blir mer og mer vanskelig for AI-deteksjonsverktøy, og det ser ikke ut til å endre seg snart.
AI chatbots er utvilsomt kraftige og nyttige verktøy. Evnen til å skille mellom menneskeskapt og AI-generert innhold er imidlertid i ferd med å bli et fremtredende problem.
For å løse dette problemet har verktøy som ZeroGPT dukket opp. Disse er designet for å skille mellom kunstig intelligens og menneskeskapt innhold. Men fungerer de?
La oss se nærmere på AI-deteksjonsverktøy og se om de kan se forskjellen mellom menneskelig og AI-generert tekst.
De sier at beviset på puddingen er i spisingen. Så la oss prøve noen tester og se hvor effektive disse verktøyene er. Det er umulig å teste alle verktøyene, så vi tester et av de mest populære verktøyene – ZeroGPT.
For materiale, tenkte vi at det ville være ganske morsomt å gi ChatGPT et knekk med å skrive en intro for denne artikkelen og deretter sammenligne den med den "menneskeskapte" introen:
Test en: Sammenligning av en menneskelig og AI-generert artikkelintro
Det første vi gjorde var å få ChatGPT til å generere en introduksjon. Vi skrev inn tittelen og ga den ingen ytterligere informasjon. For ordens skyld brukte vi GPT-3.5 til testen.
Vi kopierte deretter teksten og limte den inn i ZeroGPT. Som du kan se, var resultatene mindre enn fantastiske.
En lite iøynefallende start, men den illustrerer hvor effektive AI-chatboter er. For å fullføre testen lar vi ZeroGPT analysere et menneskeskapt utkast til intro.
Den fikk i det minste denne delen riktig. Totalt sett mislyktes ZeroGPT i denne runden. Den fastslo at i det minste en del av den AI-genererte introduksjonen var mistenkelig, men klarte ikke å fremheve spesifikke problemer.
Test to: Det falske positive problemet
Etter hvert som bruken av ChatGPT og andre AI-verktøy øker, øker sannsynligheten for å vite eller høre om noen som blir konfrontert med påstander om at arbeidet deres var AI-generert. Disse anklagene er et av de mer alvorlige problemene med ChatGPT og AI-deteksjonsverktøy som ZeroGPT, siden denne typen feil kan skade omdømme og påvirke levebrød.
Falske positiver oppstår når menneskeskapt innhold feilaktig flagges som AI-arbeid. Som eksemplet nedenfor viser, er problemet lett å replikere. Jeg er en ivrig sportsfisker, så jeg bestemte meg for å skrive en introduksjon til en tenkt artikkel om fiske i Florida. Deretter lot jeg ZeroGPT analysere teksten – den flagget at teksten var 100 % AI-generert.
For å være rettferdig siktet jeg mot dette resultatet. Jeg holdt teksten generisk og brukte "salgsspråk". Men poenget om at et menneske skrev dette er fortsatt like gyldig. Dette er ikke en ulempe eller noe som bare kan trekkes på skuldrene. Feil som dette kan ha alvorlige konsekvenser for forfattere, studenter og andre fagfolk som lager skriftlige verk.
Test tre: Testing av ZeroGPT på fiksjon
For den tredje testen skal vi bruke ChatGPT og be den skrive litt fiksjon. For å gjøre dette laget vi et scenario og ba ChatGPT om å skrive en kort introduksjon til en fiktiv historie.
Vi holdt det enkelt og ba bare om å skrive en intro til en historie om to fremmede som møtes på en jernbaneplattform:
Og her var svaret fra ZeroGPT:
Som det fremgår av resultatet, er ZeroGPT ikke i stand til å skille fakta fra fiksjon når det handler om fiksjon!
Test fire: Nyhetsartikler
Det er noe foruroligende med AI som kan informere oss om hva som skjer i verden rundt oss. Dette er ikke alltid nødvendigvis "falske nyheter", da det kan være relevant og informativt, men det er det klare etiske bekymringer rundt AI.
For å være rettferdig overfor ZeroGPT, presterte den bra i denne testen. Vi ba ChatGPT og Bing Chat om å skrive nyhetsartikler om flere emner, og ZeroGPT klarte det hver gang. Eksemplet nedenfor viser at en Bing Chat-generert artikkel erklæres korrekt som 100 % AI-generert.
Verktøyet flagget så konsekvent hver nyhetsartikkel som AI-generert at vi bestemte oss for å teste den på en dummy-nyhetsartikkel som vi skrev for formålet.
Den identifiserte i det minste noen av artiklene som menneskeskapte, men den flagget over 70 % som AI-generert. Igjen, vi må være rettferdige her; dette var en ganske grunnleggende re-hash av Bing-artikkelen og var neppe Pulitzer Prize-kvalitet.
Men poenget er fortsatt gyldig. Dette ble skrevet av et menneske ved hjelp av forskning funnet på internett.
Det er ingen enkelt årsak bak feilene i verktøy som ZeroGPT. Et grunnleggende problem er imidlertid effektiviteten til generative AI-chatbots. Disse representerer en utrolig kraftig og raskt utviklende teknologi som effektivt gjør dem til et bevegelig mål for AI-deteksjonsverktøy.
AI chatbots forbedrer kontinuerlig kvaliteten og "menneskeligheten" på produksjonen deres, og dette gjør oppgaven ekstremt utfordrende. Uansett vanskeligheter må imidlertid AI-siden av ligningen foreta en vurdering uten menneskelig tilsyn.
Verktøy som ZeroGPT bruker AI for å bestemme seg. Men AI våkner ikke bare om morgenen og vet hva de skal gjøre. Det må trenes, og det er her den tekniske siden av ligningen blir relevant.
Algoritmiske og treningsdataskjevheter er uunngåelige, tatt i betraktning størrelsen på store språkmodeller som disse verktøyene er trent på. Dette er ikke et problem som er begrenset til AI-deteksjonsverktøy, de samme skjevhetene kan føre til at AI chatbots genererer feil respons og AI-hallusinasjoner.
Imidlertid manifesterer disse feilene seg som feil "AI-flagg" i deteksjonsverktøy. Dette er neppe ideelt, men det er en refleksjon av den nåværende tilstanden til AI-teknologi. Skjevhetene som ligger i treningsdataene kan føre til falske positive eller falske negative.
En annen faktor som må vurderes er hva som utgjør AI-generert innhold. Hvis AI-generert innhold bare omformuleres, er det menneskelig eller AI-generert innhold? Dette representerer en annen stor utfordring - uskarpheten av linjene mellom de to gjør det nesten umulig å definere maskinskapt innhold.
Ser på fremtiden for AI-deteksjon
Dette kan høres ut som om vi banker på verktøy som ZeroGPT. Dette er ikke tilfellet; de står overfor enorme utfordringer, og teknologien er knapt tom for bleier. Det raske opptaket av verktøy som ChatGPT har skapt et behov for AI-deteksjon, og teknologien bør gis en sjanse til å modnes og lære.
Disse verktøyene kan ikke forventes å møte utfordringene fra chatbots på egen hånd. Men de kan spille en verdifull rolle i en samordnet og mangefasettert innsats for å møte utfordringene med AI. De representerer én del av et større puslespill som inkluderer etisk AI-praksis, menneskelig tilsyn og pågående forskning og utvikling.
Utfordringene som disse verktøyene møter, er speilbilder av utfordringene samfunnet står overfor når vi sliter med dilemmaene knyttet til en ny teknologisk tidsalder.
AI eller ikke AI? Det er spørsmålet
Verktøy som ZeroGPT er feil, det er det ingen tvil om. Men de er ikke verdiløse, og de representerer et viktig skritt når vi prøver å administrere og regulere AI. Nøyaktigheten deres vil forbedres, men det vil også sofistikeringen til AI-en de er opplært til å oppdage. Et sted midt i dette våpenkappløpet må vi finne en balanse som samfunnet er komfortabel med.
Spørsmålet – AI eller ikke AI? Er mer enn bare en diskusjon om noe er AI-generert eller ikke. Det er et tegn på de større spørsmålene samfunnet står overfor når vi tilpasser oss den modige nye verdenen av AI.
For ordens skyld, og ifølge ZeroGPT, var 27,21 % av denne konklusjonen AI-generert. Hmm.