Store språkmodeller (LLM) kommer i alle former og størrelser, og vil hjelpe deg på alle måter du måtte ønske. Men hvilken er best? Vi setter de dominerende AI-ene fra Alphabet, OpenAI og Meta på prøve.

Hva du trenger å vite om AI Chatbots

Kunstig generell intelligens har vært et mål for informatikere i flere tiår, og AI har fungert som en bærebjelke for science fiction-forfattere og filmskapere enda lenger.

AGI viser intelligens som ligner på menneskelige kognitive evner, og Turing-testen-en test av en maskins evne til å vise intelligent atferd som ikke kan skilles fra et menneskes - forble nesten uimotsagt i de syv tiårene siden den ble lagt ut.

Den nylige konvergensen av ekstremt storskala databehandling, enorme mengder penger og det forbløffende volumet av informasjon fritt tilgjengelig på det åpne internett tillot teknologigiganter å trene modeller som kan forutsi neste ordseksjon – eller token – i en sekvens av tokens.

I skrivende stund begge deler Googles Bard og OpenAIs ChatGPT er tilgjengelige for deg å bruke og teste gjennom deres nettgrensesnitt.

Metas språkmodell, LLaMa, er ikke tilgjengelig på nettet, men du kan enkelt last ned og kjør LLaMa på din egen maskinvare og bruk den via en kommandolinje eller kjør Dalai på egen maskin—en av flere apper med et brukervennlig grensesnitt.

For testens formål vil vi kjøre Stanford Universitys Alpaca 7B-modell – en tilpasning av LLaMa – og sette den mot Bard og ChatGPT.

Følgende sammenligninger og tester er ikke ment å være uttømmende, men gir deg snarere en indikasjon på nøkkelpunkter og muligheter.

Hvilken er den enkleste store språkmodellen å bruke?

Både Bard og ChatGPT krever en konto for å bruke tjenesten. Både Google- og OpenAI-kontoer er enkle og gratis å opprette, og du kan umiddelbart begynne å stille spørsmål.

Men for å kjøre LLaMa lokalt, må du ha litt spesialkunnskap eller evnen til å følge en opplæring. Du trenger også en betydelig mengde lagringsplass.

Hvilken er den mest private store språkmodellen?

Både Bard og ChatGPT har omfattende personvernregler, og Google understreker gjentatte ganger i sine dokumenter at du ikke bør inkludere informasjon som kan brukes til å identifisere deg eller andre i din Bard samtaler."

Som standard samler Google inn samtalene dine og den generelle posisjonen din basert på IP-adressen din, tilbakemeldingen din og bruksinformasjon. Denne informasjonen lagres i Google-kontoen din i opptil 18 måneder. Selv om du kan pause lagringen av Bard-aktiviteten din, bør du være klar over at "for å hjelpe med kvalitet og forbedre produktene våre, leser menneskelige anmeldere, kommenterer og behandler Bard-samtalene dine."

Bruk av Bard er også underlagt standarden Googles retningslinjer for personvern.

OpenAIs personvernpolicy er stort sett lik og samler inn IP-adresse og bruksdata. I motsetning til Googles tidsbegrensede oppbevaring, vil OpenAI "beholde personopplysningene dine så lenge vi trenger for å kunne levere våre Tjeneste til deg, eller for andre legitime forretningsformål som å løse tvister, sikkerhets- og sikkerhetsårsaker, eller å overholde våre juridiske forpliktelser."

En lokal modell på din egen maskin krever derimot ikke en konto eller deler brukerdata med noen.

Hvilken LLM har den beste generelle kunnskapen?

For å teste hvilken LLM som har best generell kunnskap stilte vi tre spørsmål.

Det første spørsmålet, "Hvilket nasjonalflagg har fem sider?" ble bare besvart riktig av Bard, som identifiserte nasjonalflagget til Nepal som å ha fem sider.

ChatGPT hevdet selvsikkert at "Det er ikke noe nasjonalflagg som har fem sider. Nasjonalflagg er typisk rektangulære eller firkantede i form, preget av deres distinkte farger, mønstre og symboler".

Vår lokale modell kom nær, og sa at "Det indiske nasjonalflagget har fem sider og ble designet i 1916 for å representere Indias uavhengighetsbevegelse." Selv om dette flagget eksisterte og hadde fem sider, var det flagget til den indiske hjemmestyrebevegelsen - ikke en nasjonal flagg.

Ingen av modellene våre kunne svare at den riktige betegnelsen for et erteformet objekt er "pisiform", med ChatGPT så langt som å antyde at erter har en "tredimensjonal geometrisk form som er perfekt rund og symmetrisk."

Alle de tre chatbotene identifiserte Franco Malerba korrekt som en italiensk astronaut og medlem av Europaparlamentet, med Bard som ga et svar formulert identisk til en del av Malerbas Wikipedia inngang.

Hvilken LLM er bra for tekniske instruksjoner?

Når du har tekniske problemer, kan du bli fristet til å henvende deg til en chatbot for å få hjelp. Mens teknologien går videre, forblir noen ting de samme. Den elektriske pluggen BS 1363 har vært i bruk i Storbritannia, Irland og mange andre land siden 1947. Vi spurte språkmodellene hvordan de skal koble det opp riktig.

Kabler som festes til støpselet har en strømførende ledning (brun), en jordledning (gul/grønn) og en nøytral ledning (blå). Disse må festes til de riktige terminalene i plugghuset.

Dalai-implementeringen vår identifiserte pluggen korrekt som "engelsk stil", så gikk den ut av kurs og ga i stedet instruksjoner for den eldre rundpinne BS 546-pluggen sammen med eldre ledningsfarger.

ChatGPT var litt mer nyttig. Den merket riktig ledningsfargene og ga en materialliste og et sett med åtte instruksjoner. ChatGPT foreslo også å sette den brune ledningen inn i terminalen merket "L", den blå ledningen inn i "N" terminal, og den gule ledningen inn i "E." Dette ville være riktig hvis BS1363-terminaler var merket, men de er det ikke.

Bard identifiserte de riktige fargene for ledningene og instruerte oss om å koble dem til Live, Neutral og Earth terminaler. Den ga ingen instruksjoner om hvordan disse skulle identifiseres.

Etter vår mening. ingen av chatbotene ga tilstrekkelige instruksjoner til å hjelpe noen med å koble en BS 1363 elektrisk plugg på riktig måte. Et kortfattet og korrekt svar vil være: "Blå til venstre, brun til høyre."

Hvilken LLM er bra for å skrive kode?

Python er et nyttig programmeringsspråk som kjører på de fleste moderne plattformer. Vi instruerte modellene våre om å bruke Python og "Bygg et grunnleggende kalkulatorprogram som kan utføre aritmetiske operasjoner som addisjon, subtraksjon, multiplikasjon og divisjon. Det bør ta brukerinndata og vise resultatet." Dette er en av de beste programmeringsprosjekter for nybegynnere.

Mens både Bard og ChatGPT umiddelbart returnerte brukbar og grundig kommentert kode, som vi var i stand til å teste og verifisere, ville ingen av koden fra vår lokale modell kjøre.

Hvilken LLM forteller de beste vitsene?

Humor er en av grunnprinsippene for å være menneske og sikkert en av de beste måtene å skille menneske og maskin fra hverandre. Til hver av våre modeller ga vi den enkle oppfordringen: "Lag en original og morsom vits."

Heldigvis for komikere overalt og menneskeheten for øvrig, var ingen av modellene i stand til å lage en original vits.

Bard rullet ut klassikeren, "Hvorfor vant fugleskremselet en pris? Han var enestående på sitt felt".

Både vår lokale implementering og ChatGPT tilbød det stønneverdige: "Hvorfor stoler ikke forskere på atomer? For de utgjør alt!"

En avledet, men original vits ville være, "Hvordan er store språkmodeller som atomer? Begge finner på ting!"

Les det her først, folkens.

Ingen chatbot er perfekt

Vi fant at selv om alle de tre store språkmodellene har sine fordeler og ulemper, kan ingen av dem erstatte den virkelige ekspertisen til et menneske med spesialkunnskap.

Mens både Bard og ChatGPT ga bedre svar på kodingsspørsmålet vårt og er veldig enkle å bruke, å kjøre en stor språkmodell lokalt betyr at du ikke trenger å være bekymret for personvern eller sensur.

Hvis du vil lage flott AI-kunst uten å bekymre deg for at noen ser deg over skulderen, er det enkelt å kjøre en art AI-modell på din lokale maskin også.