De 6 beste store språkmodellene i 2023

Du har sikkert hørt om OpenAIs GPT, men de er ikke de eneste LLM-ene på blokken.

Viktige takeaways

OpenAIs GPT-4 er den mest avanserte og mest brukte store språkmodellen, med 1,76 billioner parametere og multimodale evner.
Anthropics Claude 2 konkurrerer med GPT-4 i kreative skriveoppgaver og holder stand til tross for at han har færre ressurser.
Googles PaLM 2, selv om det ikke er en GPT-4-killer, er en kraftig språkmodell med sterke flerspråklige og kreative evner. Falcon-180B er en åpen kildekode-modell som konkurrerer med kommersielle giganter og kan stå tå-til-tå med GPT-3.5.

Det er AI-sesong, og teknologiselskaper driver med store språkmodeller som brød fra et bakeri. Nye modeller lanseres raskt, og det blir for vanskelig å holde oversikt.

Men midt i mengden av nye utgivelser har bare noen få modeller steget til toppen og vist seg som sanne utfordrere i det store språkmodellområdet. Når vi nærmer oss slutten av 2023, har vi satt sammen de seks mest imponerende store språkmodellene du bør prøve.

instagram viewer

1. OpenAIs GPT-4

GPT-4 er den mest avanserte offentlig tilgjengelige store språkmodellen til dags dato. Utviklet av OpenAI og utgitt i mars 2023, GPT-4 er den siste iterasjonen i Generative Pre-trained Transformer-serien som begynte i 2018. Med sine enorme muligheter har GPT-4 blitt en av de mest brukte og mest populære store språkmodellene i verden.

Selv om det ikke er offisielt bekreftet, anslår kilder at GPT-4 kan inneholde svimlende 1,76 billioner parametere, rundt ti ganger mer enn forgjengeren, GPT-3.5, og fem ganger større enn Googles flaggskip, PaLM 2. Denne massive skalaen muliggjør GPT-4s multimodale evner, slik at den kan behandle både tekst og bilder som input. Som et resultat kan GPT-4 tolke og beskrive visuell informasjon som diagrammer og skjermbilder i tillegg til tekst. Dens multimodale natur gir en mer menneskelignende forståelse av data fra den virkelige verden.

I vitenskapelige benchmarks overgår GPT-4 betydelig andre moderne modeller på tvers av ulike tester. Mens benchmarks alene ikke fullt ut demonstrerer en modells styrker, har virkelige brukstilfeller vist at GPT-4 er eksepsjonelt dyktig til å løse praktiske problemer intuitivt. GPT-4 faktureres for øyeblikket til $20 per måned og tilgjengelig gjennom ChatGPTs Plus-plan.

2. Antropics Claude 2

Bildekreditt: Antropisk

Selv om det ikke er så populært som GPT-4, kan Claude 2, utviklet av Anthropic AI, matche GPT -4s tekniske standarder og ytelse i den virkelige verden på flere områder. I noen standardiserte tester, inkludert utvalgte eksamener, overgår Claude 2 GPT-4. AI-språkmodellen har også et enormt overlegent kontekstvindu på rundt 100 000 tokens, sammenlignet med GPT -4s 8k og 32k tokens modeller. Selv om større kontekstlengde ikke alltid gir bedre ytelse, gir Claude 2s utvidede kapasitet klare fordeler, som å fordøye hele 75 000 ord lange bøker for analyse.

I generell ytelse forblir GPT-4 overlegen, men våre interne tester viser at Claude 2 overgår det i flere kreative skriveoppgaver. Claude 2 følger også GPT-4 i programmerings- og matematikkferdigheter basert på våre evalueringer, men utmerker seg ved å gi menneskelignende, kreative svar. Da vi spurte alle modellene på denne listen om å skrive eller omskrive et kreativt stykke, seks av ti ganger, valgte vi Claude 2s resultat for dets naturlig-klingende menneskelignende resultater. For tiden, Claude 2 er tilgjengelig gratis gjennom Claude AI chatbot. Det er også en $20 betalt plan for tilgang til ekstra funksjoner.

Til tross for å ha mindre økonomisk støtte enn giganter som OpenAI og Microsoft, holder Anthropics Claude 2 AI-modell stand mot de populære GPT-modellene og Googles PaLM-serie. For en AI med færre ressurser er Claude 2 imponerende konkurransedyktig. Hvis tvunget til å satse på hvilken eksisterende modell som har best sjanse til å konkurrere med GPT i nær fremtid, virker Claude 2 den sikreste innsatsen. Selv om Claude 2s avanserte evner ikke har finansiert seg, antyder de at den kan gå tå-til-tå med selv godt finansierte giganter (selv om det er verdt å merke seg at Google har gitt flere store bidrag til antropisk). Modellen slår over sin vektklasse og viser lovende som en ny utfordrer.

3. OpenAI sin GPT-3.5

Bildekreditt: Marcelo Mollaretti/Shutterstock

Mens de er overskygget av utgivelsen av GPT-4, bør GPT-3.5 og dens 175 milliarder parametere ikke undervurderes. Gjennom iterativ finjustering og oppgraderinger fokusert på ytelse, nøyaktighet og sikkerhet, har GPT-3.5 kommet langt fra den originale GPT-3-modellen. Selv om den mangler GPT -4s multimodale evner og henger etter i kontekstlengde og parameterantall, GPT-3.5 er fortsatt svært kapabel, med GPT-4 som den eneste modellen som kan overgå all-around ytelsen avgjørende.

Til tross for at den er en annenlagsmodell i GPT-familien, kan GPT-3.5 holde seg selv og til og med overgå Google og Metas flaggskipmodeller på flere benchmarks. I side-ved-side tester av matematiske ferdigheter og programmeringsferdigheter mot Googles PaLM 2, var forskjellene ikke store, med GPT-3.5 til og med en liten fordel i noen tilfeller. Mer kreative oppgaver som humor og narrativ skriving førte til at GPT-3.5 ble avgjørende.

Så mens GPT-4 markerer en ny milepæl innen AI, er GPT-3.5 fortsatt en imponerende kraftig modell som kan konkurrere med og noen ganger overgå selv de mest avanserte alternativene. Dens fortsatte raffinement sikrer at den forblir relevant selv sammen med prangende nestegenerasjonsmodeller.

4. Googles PaLM 2

Bildekreditt: Google

Når man evaluerer en AI-modells evner, er den velprøvde formelen å lese den tekniske rapporten og sjekk referansescore, men ta alt du har lært med en klype salt og test modellen deg selv. Selv om det kan virke motintuitivt, stemmer ikke alltid referanseresultater med den virkelige ytelsen for enkelte AI-modeller. På papiret skulle Googles PaLM 2 være GPT-4-morderen, med offisielle testresultater som tyder på at den samsvarer med GPT-4 på tvers av noen benchmarks. Men i daglig bruk dukker det opp et annet bilde.

I logisk resonnement, matematikk og kreativitet kommer PaLM 2 til kort GPT-4. Den ligger også bak Anthropics Claude i en rekke kreative skriveoppgaver. Men selv om den ikke klarer å leve opp til faktureringen som en GPT-4-morder, Googles PaLM 2 er fortsatt en kraftig språkmodell i sin egen rett, med enorme evner. Mye av det negative sentimentet rundt det stammer fra sammenligninger med modeller som GPT-4 i stedet for direkte dårlig ytelse.

Med 340 milliarder parametere står PaLM 2 blant verdens største modeller. Den utmerker seg spesielt ved flerspråklige oppgaver og har sterke matematiske og programmeringsevner. Selv om det ikke er best på det, er PaLM 2 også ganske effektiv på kreative oppgaver som å skrive. Så selv om benchmarks malte et optimistisk bilde som ikke ble helt realisert, viser PaLM 2 fortsatt imponerende AI-ferdigheter, selv om den ikke overgår alle konkurrenter over hele linja.

5. TIIs Falcon-180B

Med mindre du har fulgt med på det raske tempoet i AI-språkmodellutgivelser, har du sannsynligvis aldri møtt Falcon-180B. Utviklet av UAEs Technology Innovation Institute, er 180 milliarder parameteren Falcon-180 en av de kraftigste åpen kildekode-språkmodeller der ute, selv om det mangler navngjenkjenning av GPT-modeller eller den utbredte bruken av Metas Lama 2. Men gjør ingen feil – Falcon-180B kan stå tå-til-tå med de beste i klassen.

Referanseresultater viser at Falcon-180B utkonkurrerer de fleste åpen kildekode-modeller og konkurrerer med kommersielle juggernauts som PaLM 2 og GPT-3.5. I testing av matematikk, koding, resonnement og kreative skriveoppgaver, klarte den til og med GPT-3.5 og PaLM 2 på ganger. Hvis vi rangerer GPT-4, GPT-3.5 og Falcon-180B, vil vi plassere Falcon-180B rett mellom GPT-4 og GPT-3.5 på grunn av styrkene i flere brukstilfeller.

Selv om vi ikke med sikkerhet kan si at den er bedre enn GPT-3.5 i total ytelse, er den en sak for seg selv. Selv om den er obskur, fortjener denne modellen oppmerksomhet for å matche eller overgå mulighetene til bedre kjente alternativer. Du kan prøve ut Falcon-180B-modellen på Klemende ansikt (en åpen kildekode LLM-plattform).

Llama 2, Meta AIs 70 milliarder parameter store språkmodell, bygger på forgjengeren Llama 1. Selv om Llama 2 er mindre enn ledende modeller, overgår de de fleste offentlig tilgjengelige LLM-er med åpen kildekode i benchmarks og bruk i den virkelige verden. Et unntak vil være Falcon-180B.

Vi testet Llama 2 mot GPT-4, GPT-3.5, Claude 2 og PaLM 2 for å måle egenskapene. Ikke overraskende utklasset GPT-4 Llama 2 på tvers av nesten alle parametere. Llama 2 holdt imidlertid stand mot GPT-3.5 og PaLM 2 i flere evalueringer. Selv om det ville være unøyaktig å påstå at Llama 2 er overlegen PaLM 2, løste Llama 2 mange problemer som stoppet PaLM 2, inkludert kodeoppgaver. Claude 2 og GPT-3.5 klarte Llama 2 på noen områder, men var bare avgjørende bedre i et begrenset antall oppgaver.

Så selv om det ikke overskrider egenskapene til de største proprietære modellene, åpen kildekode Llama 2 slår over sin vektklasse. For en åpent tilgjengelig modell demonstrerer den imponerende ytelse og konkurrerer med AI-giganter som PaLM 2 i utvalgte evalueringer. Llama 2 gir et glimt av det fremtidige potensialet til språkmodeller med åpen kildekode.

Ytelsesgapet mellom AI-modeller blir mindre

Selv om AI-landskapet utvikler seg i et rasende tempo, er OpenAIs GPT-4 fortsatt lederen av flokken. Men mens GPT-4 fortsatt er uovertruffen i skala og ytelse, viser modeller som Claude 2 at med nok ferdigheter kan mindre modeller konkurrere på utvalgte områder. Googles PaLM 2, til tross for at den ikke oppfyller noen høye forventninger, viser fortsatt dype egenskaper. Og Falcon-180B beviser at åpen kildekode-initiativer kan stå skulder-til-skulder med industrititaner gitt tilstrekkelige ressurser.

About Technology - denizatm.com

De 6 beste store språkmodellene i 2023

Viktige takeaways

1. OpenAIs GPT-4

2. Antropics Claude 2

3. OpenAI sin GPT-3.5

4. Googles PaLM 2

5. TIIs Falcon-180B

Ytelsesgapet mellom AI-modeller blir mindre

kategorier

Recent Post

5 gratis daglige standup-møteverktøy for å sjekke teamstatus og oppdateringer

Hvordan fungerer en projektor?

Slik validerer du skjemaer med Next.js