PaLM 2 gir enorme oppgraderinger til Googles LLM, men betyr det at den nå kan gå tå-til-tå med OpenAIs GPT-4?
Google avduket neste generasjon av Pathways Language Model (PaLM 2) 10. mai 2023 på Google I/O 2023. Den nye store språkmodellen (LLM) har mye forbedring i forhold til forgjengeren (PaLM) og kan endelig være klar til å ta opp mot sin største rival, OpenAIs GPT-4.
Men hvor mye forbedring har Google gjort? Er PaLM 2 den forskjellen som Google håper den vil være, og enda viktigere, med så mange lignende funksjoner, hvordan er PaLM 2 forskjellig fra OpenAIs GPT-4?
PaLM 2 vs. GPT-4: Ytelsesoversikt
PaLM 2 er fullpakket med nye og forbedrede funksjoner over forgjengeren. En av de unike fordelene PaLM 2 har fremfor GPT-4 er det faktum at den er tilgjengelig i mindre størrelser spesifikke for visse applikasjoner som ikke har så mye prosessorkraft ombord.
Alle disse forskjellige størrelsene har sine egne mindre modeller kalt Gecko, Otter, Bison og Unicorn, med Gecko som den minste, etterfulgt av Otter, Bison, og til slutt, Unicorn, den største modellen.
Google hevder også en forbedring i resonneringsevner i forhold til GPT-4 i WinoGrande og DROP, hvor førstnevnte har en smal margin i ARC-C. Det er imidlertid betydelig forbedring over hele linja når det gjelder PaLM og SOTA.
PaLM 2 er også bedre i matematikk, ifølge Googles 91-side PaLM 2 forskningsoppgave [PDF]. Måten Google og OpenAI har strukturert sine testresultater på gjør det imidlertid vanskelig å sammenligne de to modellene direkte. Google har også utelatt noen sammenligninger, sannsynligvis fordi PaLM 2 ikke presterte på langt nær så godt som GPT-4.
I MMLU fikk GPT-4 86,4, mens PaLM 2 fikk 81,2. Det samme gjelder HellaSwag, der GPT-4 scoret 95,3, men PaLM 2 kunne bare mønstre 86,8, og ARC-E, hvor GPT-4 og PaLM 2 fikk 96,3 og 89,7, hhv.
Den største modellen i PaLM 2-familien er PaLM 2-L. Selv om vi ikke vet den nøyaktige størrelsen, vet vi at den er betydelig mindre enn den største PaLM-modellen, men bruker mer treningsdatabehandling. Ifølge Google, PaLM har 540 milliarder parametere, så den "betydelig mindre" bør sette PaLM 2 hvor som helst mellom 10 til 300 milliarder parametere. Husk at disse tallene bare er antakelser basert på det Google har sagt i PaLM 2-artikkelen.
Hvis dette tallet er i nærheten av 100 milliarder eller under, er PaLM 2 mest sannsynlig mindre når det gjelder parametere enn GPT-3.5. Å vurdere en modell potensielt under 100 milliarder kan gå tå til tå med GPT-4 og til og med slå den på enkelte oppgaver er imponerende. GPT-3.5 blåste i utgangspunktet alt opp av vannet, inkludert PaLM, men PaLM 2 har kommet seg ganske bra.
Forskjeller i treningsdata for GPT-4 og PaLM 2
Selv om Google ikke har avslørt størrelsen på PaLM 2s opplæringsdatasett, rapporterer selskapet i sin forskningsartikkel at den nye LLMs opplæringsdatasett er betydelig større. OpenAI tok også samme tilnærming da han avduket GPT-4, og kom med ingen påstander om størrelsen på treningsdatasettet.
Google ønsket imidlertid å fokusere på en dypere forståelse av matematikk, logikk, resonnement og vitenskap, noe som betyr at en stor del av PaLM 2s treningsdata er fokusert på de nevnte emnene. Google sier i sin artikkel at PaLM 2s pre-training-korpus er sammensatt av flere kilder, inkludert nettdokumenter, bøker, kode, matematikk og samtaledata, noe som gir det forbedringer over hele linja, i det minste sammenlignet med PALM.
PaLM 2s samtaleferdigheter bør også være på et annet nivå med tanke på at modellen er opplært på over 100 språk for å gi den en bedre kontekstuell forståelse og bedre oversettelse evner.
Så langt som GPT-4s treningsdata er bekreftet, har OpenAI fortalt oss at den har trent modellen ved å bruke offentlig tilgjengelige data og dataene den lisensierte. GPT-4s forskningsside uttaler, "Dataene er et nettskala korpus av data inkludert korrekte og ukorrekte løsninger på matematiske problemer, svake og sterke resonnementer, selvmotsigende og konsistente utsagn, og som representerer et stort utvalg av ideologier og ideer."
Når GPT-4 blir stilt et spørsmål, kan det produsere et bredt utvalg av svar, som ikke alle kan være relevante for søket ditt. For å tilpasse den til brukerens hensikt, finjusterte OpenAI modellens oppførsel ved å bruke forsterkende læring med menneskelig tilbakemelding.
Selv om vi kanskje ikke vet de nøyaktige treningsdataene noen av disse modellene ble trent på, vet vi at treningsintensjonen var veldig forskjellig. Vi må vente og se hvordan denne forskjellen i treningsintensjon skiller mellom de to modellene i en virkelig distribusjon.
PaLM 2 og GPT-4 Chatbots og tjenester
Den første portalen som får tilgang til begge LLM-ene bruker deres respektive chatbots, PaLM 2s Bard og GPT-4s ChatGPT. Når det er sagt, står GPT-4 bak en betalingsmur med ChatGPT Plus, og gratisbrukere får kun tilgang til GPT-3.5. Bard, på den annen side, er gratis for alle og tilgjengelig i 180 land.
Det er ikke dermed sagt at du heller ikke kan få tilgang til GPT-4 gratis. Microsofts Bing AI Chat bruker GPT-4 og er helt gratis, åpen for alle og tilgjengelig rett ved siden av Bing Search, Googles største rival på området.
Google I/O 2023 var fylt med kunngjøringer om hvordan PaLM 2 og generativ AI-integrasjon vil forbedre Google Workspace erfaring med AI-funksjoner som kommer til Google Docs, Sheets, Slides, Gmail og omtrent alle tjenester søkegiganten tilbyr. I tillegg har Google bekreftet at PaLM 2 allerede er integrert i over 25 Google-produkter, inkludert Android og YouTube.
Til sammenligning har Microsoft allerede brakt AI-funksjoner til Microsoft Office-pakken med programmer og mange av tjenestene deres. For øyeblikket kan du oppleve begge LLM-ene i sine egne versjoner av lignende tilbud fra to rivaliserende selskaper som går mot hverandre i AI-kampen.
Men siden GPT-4 kom ut tidlig og har vært forsiktig med å unngå mange av feilene Google gjorde med den originale Bard, har det vært de facto LLM for tredjepartsutviklere, startups og omtrent alle andre som ønsker å innlemme en dyktig AI-modell i tjenesten deres, så langt. Vi har en liste over GPT-4-apper hvis du vil sjekke dem ut.
Det er ikke dermed sagt at utviklere ikke vil bytte til eller i det minste prøve ut PaLM 2, men Google må fortsatt ta igjen OpenAI på den fronten. Og det faktum at PaLM 2 er åpen kildekode, i stedet for å være låst bak en betalt API, betyr at den har potensial til å bli mer utbredt enn GPT-4.
Kan PaLM 2 ta på seg GPT-4?
PaLM 2 er fortsatt veldig nytt, så svaret på om den kan ta på seg GPT-4 eller ikke gjenstår å besvare. Men med alt som Google lover og den aggressive måten den har bestemt seg for å bruke for å spre det, ser det ut til at PaLM 2 kan gi GPT-4 en sjanse for pengene.
GPT-4 er imidlertid fortsatt en ganske dyktig modell, og som tidligere nevnt slår PaLM 2 i ganske mange sammenligninger. Når det er sagt, gir PaLM 2s flere mindre modeller den en ugjendrivelig fordel. Gecko i seg selv er så lett at den kan fungere på mobile enheter, selv når den er offline. Dette betyr at PaLM 2 kan støtte en helt annen klasse av produkter og enheter som kan slite med å bruke GPT-4.
AI-løpet varmes opp
Med lanseringen av PaLM2 har kappløpet om AI-dominans blitt varmere, siden dette kanskje bare er den første verdige motstanderen som går mot GPT-4. Med en nyere multimodal AI-modell kalt "Gemini" også under trening, viser ikke Google noen tegn til å bremse opp her.