Du kan teste forskjellige AI chatbots for å finne ut hvilke som fungerer best. Men hvordan bør du gjøre dette? Her er noen viktige faktorer å vurdere.
AI har kommet langt fra å produsere irrelevant, usammenhengende produksjon. Moderne chatbots bruker avanserte språkmodeller som svarer på generelle kunnskapsspørsmål, komponerer lange essays og skriver kode, blant andre komplekse oppgaver.
Til tross for disse fremskrittene, merk at selv de mest sofistikerte systemene har begrensninger. AI gjør fortsatt feil. For å finne ut hvilke chatboter som er minst utsatt for hallusinasjoner, test nøyaktigheten deres basert på disse faktorene.
1. Regneferdighet
Kjør matematiske ligninger gjennom chatbots. De vil teste plattformens evne til å analysere ordproblemer, oversette matematiske konsepter og bruke riktige formler. Bare noen få modeller viser pålitelig tallforståelse. Faktisk en av ChatGPTs verste problemer under de første månedene var dens forferdelige matematiske forståelse.
Bildet nedenfor viser ChatGPT som mislykkes ved grunnleggende statistikk.
ChatGPT viste forbedring etter OpenAI lanserte sine oppdateringer fra mai 2023. Men med tanke på de begrensede datasettene, vil du fortsatt ha problemer med middels til avanserte matematiske beregninger.
I mellomtiden viser Bing Chat og Google Bard bedre regneferdigheter. De kjører søk gjennom sine respektive søkemotorer, slik at de kan trekke formler og svarark.
Prøv å omformulere ordproblemene dine. Unngå lange setninger og bytt ut svake verb; Ellers kan chatbots misforstå spørsmålene dine.
2. Forståelse
Moderne AI-systemer kan ta på seg flere oppgaver. Avanserte LLM-er gjør det mulig for dem å beholde tidligere instruksjoner og svare på spørsmål etter seksjon, mens eldre systemer behandler entallskommandoer. Siri svarer for eksempel på ett spørsmål om gangen.
Mate chatbots tre til fem oppgaver samtidig for å teste hvor godt de analyserer komplekse spørsmål. Mindre sofistikerte modeller kan ikke behandle så mye informasjon. Bildet nedenfor viser at HuggingChat ikke fungerer ved en tre-trinns melding - den stopper ved trinn én og avviker fra emnet.
HuggingChats siste linjer er allerede usammenhengende.
ChatGPT fullfører raskt den samme forespørselen, og genererer feilfrie, intelligente svar på hvert trinn.
Bing Chat gir et kortfattet svar på de tre trinnene. Dens stive restriksjoner forbyr unødvendig lange utganger som sløser med prosessorkraft.
3. Aktualitet
Siden AI-trening koster enorme ressurser, begrenser de fleste utviklere datasett til bestemte perioder. Ta ChatGPT som et eksempel. Den har en kunnskapsgrense for september 2021 – du kan ikke be om væroppdateringer, nyhetsrapporter eller nylige utviklinger. Her sier ChatGPT at den ikke har tilgang til sanntidsinformasjon.
Bard har tilgang til internett. Den henter data fra Google SERP-er, slik at du kan stille et bredere spekter av spørsmål, for eksempel nylige hendelser, nyheter og spådommer.
På samme måte henter Bing Chat sanntidsinformasjon fra søkemotoren.
Bing Chat og Bard leverer tidsriktig, oppdatert informasjon, men sistnevnte gir mer detaljerte svar. Bing presenterer bare data som de er. Du vil legge merke til at utgangene ofte samsvarer med fraseringen og tonen i de koblede kildene ordrett.
4. Relevans
Chatbots må gi relevante utdata. De bør vurdere den bokstavelige og kontekstuelle betydningen av spørsmålene dine når de svarer. Ta denne samtalen som et eksempel. Personen vår trenger en ny telefon, men har bare $1000 – ChatGPT overskrider ikke budsjettet.
Når du tester for relevans, prøv å lage lange instruksjoner. Mindre sofistikerte chatbots har en tendens til å gå på en tangent når de mates med forvirrende instruksjoner. For eksempel kan HuggingChat komponere fiktive historier. Men det kan avvike fra hovedemnet hvis du setter for mange regler og retningslinjer.
5. Kontekstuelt minne
Kontekstminne hjelper AI med å produsere nøyaktige, pålitelige utdata. I stedet for å ta spørsmålene dine for pålydende, setter de sammen detaljene du nevner. Ta denne samtalen som et eksempel. Bing Chat kobler sammen to separate meldinger for å danne et nyttig, kortfattet svar.
På samme måte lar kontekstuelt minne chatbots huske instruksjoner. Dette bildet viser ChatGPT som etterligner måten en fiktiv karakter snakker på gjennom flere chatter.
Test denne funksjonen selv ved å referere konsekvent til tidligere utsagn. Mate chatboter med forskjellig informasjon, og tving dem deretter til å huske disse i senere svar.
Det kontekstuelle minnet er begrenset. Bing Chat starter nye samtaler hver 20. omgang, mens ChatGPT ikke kan behandle forespørsler over 3000 tokens.
6. Sikkerhetsrestriksjoner
AI gjør ikke alltid etter hensikten. Feiltrening kan forårsake maskinlæringsteknologier for å begå ulike feil, fra mindre matematiske feil til problematiske kommentarer. Ta Microsoft Tay som et eksempel. Twitter-brukere utnyttet dens uovervåkede læringsmodell og betinget den til å si rasebeskjeftigelser.
Heldigvis lærte globale teknologiledere av Microsofts tabbe. Selv om det er kostnadseffektivt og praktisk, gjør uovervåket læring AI-systemer utsatt for bedrag. Derfor er utviklere først og fremst avhengige av overvåket læring i dag. Chatbots liker ChatGPT lærer fortsatt av samtaler, men trenerne deres filtrerer informasjon først.
Forvent andre retningslinjer fra AI-selskaper. ChatGPTs mindre rigide restriksjoner rommer et bredere spekter av oppgaver, men er svake mot utnyttelse. I mellomtiden følger Bing Chat strengere grenser. Mens de hjelper til med å bekjempe utnyttelsesforsøk, hindrer de også funksjonalitet. Bing slår automatisk av potensielt skadelige samtaler.
7. AI-skjevheter
AI er iboende nøytral. Dens mangel på preferanser og følelser gjør den ute av stand til å danne seg meninger – den presenterer bare informasjon den kjenner til. Her er hvordan ChatGPT reagerer på subjektive emner.
Til tross for denne nøytraliteten, AI skjevheter fortsatt oppstår. De stammer fra mønstrene, datasettene, algoritmene og modellene som utviklere bruker. AI kan være upartisk, men mennesker er det ikke.
For eksempel, Brookings Institution hevder at ChatGPT demonstrerer venstreorienterte politiske skjevheter. OpenAI avviser selvfølgelig disse påstandene. Men for å unngå lignende problemer med nyere modeller, unngår ChatGPT meningsfulle utganger helt.
På samme måte unngår Bing Chat sensitive, subjektive saker.
Vurder AI-fordommer selv ved å stille meningsbaserte, åpne spørsmål. Snakk om emner uten rett eller galt svar – mindre sofistikerte chatbots vil sannsynligvis vise grunnløse preferanser mot spesifikke grupper.
8. Referanser
AI dobbeltsjekker sjelden fakta. Den henter bare informasjon fra datasettene og omformulerer dem gjennom språkmodeller. Dessverre forårsaker begrenset trening AI-hallusinasjoner. Du kan fortsatt bruke generative AI-verktøy for forskning, men sørg for å bekrefte fakta selv. Ta utgangen med en klype salt.
Bing Chat forenkler faktasjekkingsprosessen ved å liste opp referansene etter hver utgang.
Bard AI viser ikke kildene sine, men genererer oppdaterte, dyptgående forklaringer ved å kjøre Google-søk. Du får hovedpoengene fra SERP-er.
ChatGPT er utsatt for unøyaktigheter. Kunnskapsgrensen for 2021 forhindrer den i å svare på spørsmål om nylige hendelser og hendelser.
Lag nye måter å teste chatbots for nøyaktighet
AI er ikke alt av teknologi. Mens sofistikerte AI-systemer og språkmodeller utfører imponerende bragder, begår de også feil og inkonsekvenser. Se chatbots med skepsis. Du kan bare bruke AI-drevne plattformer hvis du forstår deres funksjoner og begrensninger.
Selv om det er dusinvis av chatbots på tvers av plattformer, kan deres pålitelighet og presisjon skuffe deg. Du vil bare kaste bort tid på å teste dem. For å sikre kvalitetsresultater foreslår vi å fokusere på de tre mest robuste modellene på markedet: ChatGPT, Bing AI og Google Bard.