For over 70 år siden, da kunstig intelligens ble konseptualisert, publiserte Alan Turing en artikkel som beskrev hvordan man identifiserer den. Den ble senere kjent som Turing-testen, og den har blitt brukt i flere tiår for å skille mellom et menneske og en AI.

Men med introduksjonen av avanserte AI-chatbots som ChatGPT og Google Bard, blir det vanskeligere å si om du snakker med en AI. Det reiser spørsmålet; er Turing-testen utdatert? Og hvis det er det, hva er alternativene?

Er Turing-testen utdatert?

Bildekreditt: Jesus Sanz/Shutterstock

For å finne ut om Turing-testen er utdatert, må du først forstå hvordan det fungerer. For at en kunstig intelligens skal bestå Turing-testen, må den overbevise en menneskelig avhører om at den er et menneske. Men det er en hake - AI blir evaluert sammen med et menneske, og det må svare ved hjelp av tekst.

Tenk på det slik; hvis du er avhøreren, og du stiller spørsmål til to deltakere på nettet ved å bruke tekst, men en av dem er en AI-modell – vil du skille dem fra hverandre etter fem minutter? Husk at målet med Turing-testen ikke er å identifisere AI-modellen basert på de riktige svarene, men å vurdere om AI-en kan tenke eller oppføre seg som et menneske.

instagram viewer

Problemet med Turing-testtilnærmingen med bare å identifisere menneskelignende svar er at den ikke tar hensyn til andre faktorer. For eksempel intelligensen til AI-modellen eller kunnskapen til avhøreren. Dessuten er Turing-testen begrenset til kun tekst, og det blir vanskeligere å identifisere en AI som genererer en menneskelig stemme eller dypfalske videoer som imiterer menneskelig atferd.

Imidlertid har de nåværende AI-modellene som ChatGPT-4 og Google Bard ennå ikke avansert til et punkt at de konsekvent kan bestå Turing-testen. Faktisk, hvis du er kjent med AI, kan du det oppdage AI-generert tekst.

De 5 beste Turing-testalternativene

Det er mulig det fremtidige AI-modeller som ChatGPT-5 kunne bestå Turing-testen. Hvis det skjer, trenger vi forskjellige tester kombinert med Turing-testen for å identifisere om vi snakker med en AI eller et menneske. Her er de beste Turing-testalternativene:

1. Marcus-testen

Gary Marcus, en anerkjent kognitiv vitenskapsmann og AI-forsker, foreslo et alternativ til Turing-testen som ble publisert i En fra New York å identifisere den kognitive evnen til en AI. Testen er enkel – du bedømmer en AI-modell basert på dens evne til å se og forstå YouTube-videoer og TV-programmer uten undertekster eller tekst. For at AI skal bestå Marcus-testen, bør den forstå sarkasme, humor, ironi og historien når du ser på videoene og forklare det som et menneske.

For øyeblikket, GPT-4 kan beskrive bilder, men så langt er det foreløpig ingen AI-modell som kan forstå videoer som et menneske. Selvkjørende kjøretøy kommer nær, men de er ikke helt autonome og krever sensorer siden de ikke kan forstå alt i omgivelsene.

2. Den visuelle Turing-testen

I følge en forskningsartikkel publisert på PNAS, kan den visuelle Turing-testen brukes til å identifisere om du snakker med et menneske eller en AI ved hjelp av bildespørsmål. Det fungerer som Turing-testen, men i stedet for å svare på spørsmål ved hjelp av tekster, får deltakerne vist bilder og forventes å svare på enkle spørsmål mens de tenker som et menneske. Imidlertid visuell Turing-test er forskjellig fra CAPTCHA-er siden alle svarene er riktige – men for å bestå testen må AI-en behandle bildene på samme måte som et menneske.

Utover det, hvis en AI og et menneske blir vist flere bilder side om side og bedt om å identifisere realistiske bilder, vil mennesket ha den kognitive evnen til å bestå testen. Dette er fordi AI-modeller synes det er vanskelig å skille bilder som ikke ser ut som de er tatt i den virkelige verden. Det er faktisk grunnen til at du kan identifisere AI-genererte bilder ved å bruke uregelmessigheter som ikke gir mening.

3. Lovelace 2.0-testen

Teorien om at en datamaskin ikke kan lage originale ideer utover det den var programmert til å gjøre, ble først konseptualisert av Ada Lovelace før Turing-testen. Alan Turing protesterte imidlertid mot den teorien og hevdet at AI fortsatt kan overraske mennesker. Det var ikke før i 2001 at retningslinjene for Lovelace-testen ble utviklet for å skille en AI fra et menneske – og i henhold til thekurzweilibrary reglene ble senere revidert i 2014.

For at en kunstig intelligens skal bestå Lovelace-testen, må den demonstrere at den kan generere originale ideer som overgår treningen. Nåværende AI-modeller som GPT-4 har ikke evnen til å komme opp med nye oppfinnelser utover vår eksisterende kunnskap. Derimot, kunstig generell intelligens kan oppnå den evnen og bestå Lovelace-testen.

4. Omvendt Turing-test

Hva med Turing-testen, men gjort i revers? I stedet for å prøve å finne ut om du snakker med et menneske, er målet med omvendt Turing-test er å lure AI-en til å tro at du er en AI. Du trenger imidlertid også en annen AI-modell for å svare på de samme spørsmålene ved hjelp av tekst.

For eksempel, hvis ChatGPT-4 er avhøreren, kan du registrere Google Bard og et annet menneske som deltakere. Hvis AI-modellen kan identifisere den menneskelige deltakeren korrekt basert på svarene, har den bestått testen.

Ulempen med den omvendte Turing-testen er at den er upålitelig, spesielt med tanke på det noen ganger AI kan ikke skille mellom AI-generert og menneskeskrevet innhold.

5. AI-klassifiseringsrammeverk

I henhold til AI-klassifiseringsrammeverket utviklet av Chris Saad, Turing-testen er bare én evalueringsmetode for å finne ut om du snakker med en AI. Mer kortfattet er AI-klassifiseringsrammeverket basert på teorien om multippel intelligens, som krever at menneskelig intelligens tilfredsstiller minst åtte forskjellige kriterier, som inkluderer: musikalsk rytme, logisk-matematisk intelligens, visuell identifikasjon, emosjonell intelligens, selvreflekterende intelligens, eksistensiell tenkeevne og kropp bevegelse.

Siden AI er evaluert på åtte forskjellige parametere, er det usannsynlig at det passer for et menneske selv om det presterer bedre enn gjennomsnittet i visse benchmarks. For eksempel, ChatGPT kan løse matematiske problemer, beskriver bilder og samtaler på et naturlig språk som et menneske, men det ville svikte andre kategorier definert i AI-klassifiseringsrammeverket.

Turing-testen er ikke avgjørende

Turing-testen var ment å være mer et tankeeksperiment enn en avgjørende test for å skille mellom mennesker og AI. Da det opprinnelig ble foreslått, var det det sentrale referansepunktet for måling av maskinintelligens.

Men med den nylige utviklingen av AI-modeller med tale-, visuelle- og hørselsinteraktive evner, kommer Turing-testen til kort siden den er begrenset til tekstsamtale. Den mest effektive løsningen ville være å introdusere Turing-testalternativer som ytterligere skiller AI-modeller fra mennesker.