Populariteten til ChatGPT er et bevis på hvor langt naturlig språkbehandling (NLP) har kommet. Transformatorarkitekturmodeller som GPT-3, GPT-4 og BERT er i stand til menneskelignende samtaler, og noen kan til og med brukes til å skrive kompleks kode.

Mens GPT er markedsleder, var BERT faktisk den første språkmodellen som kom på banen i 2018. Men hvilken er bedre? Og hva er forskjellen mellom GPT og BERT?

Forklarer GPT-3 og GPT-4

GPT-3 (Generative Pre-trained Transformer 3) er en autoregressiv språkmodell lansert av OpenAI i juni 2020. Den bruker en transformatorarkitektur med 175 milliarder parametere, noe som gjør den til en av de største språkmodellene som noen gang er konstruert.

GPT-3 kan generere tekst på naturlig språk, samt svare på spørsmål, komponere poesi og til og med skrive komplette artikler. ChatGPT er et godt eksempel på generativ AI drevet av GPT.

Det har blitt ansett som en game-changer for naturlig språkbehandling, og den har et bredt spekter av potensielle applikasjoner, inkludert chatbots, språkoversettelse og innholdsoppretting.

GPT-4 er den nyeste og største i rekken av GPT-modeller, og er tilgjengelig hvis du har et ChatGPT Plus-abonnement. GPT-4 er seks ganger større enn GPT-3-modellen, med anslagsvis én billion parametere, noe som gjør den mye mer nøyaktig.

Hva er BERT?

BERT (Bidirectional Encoder Representations from Transformers) er en språkrepresentasjonsmodell før opplæring som finjusterer NLP-applikasjoner laget av Google i 2018. I motsetning til andre NLP-modeller som bruker ensrettet oppmerksomhetsflyt, bruker BERT toveis flyt, som lar den bruke kontekst fra begge retninger under behandlingen.

Dette gjør at modellen kan forstå betydningen av ord i kontekst og på sin side bedre forstå språkstrukturer. Med BERT kan Google nå gi mer nøyaktige søkeresultater for komplekse søk – spesielt de som er avhengige av preposisjoner som «for», «til» og «fra».

De viktigste forskjellene mellom GPT og BERT

Nå som du har en kort idé om GPT og BERT, la oss diskutere hovedforskjellene mellom disse to språkmodellene.

Arkitektur

Arkitektur refererer til de mange lagene som danner en maskinlæringsmodell. GPT og BERT bruker ulike modeller. BERT er designet for toveis kontekstrepresentasjon, noe som betyr at den behandler tekst fra både venstre-til-høyre og høyre-til-venstre, slik at den kan fange kontekst fra begge retninger.

Derimot leser mennesker tekst fra venstre til høyre (eller høyre til venstre, avhengig av lokalitet). BERT trenes ved å bruke et maskert språkmodelleringsmål, hvor noen ord i en setning er maskert, og modellen har i oppgave å forutsi de manglende ordene basert på konteksten rundt.

Denne føropplæringsmetoden lar BERT lære dype kontekstualiserte representasjoner, noe som gjør den svært effektiv for NLP-oppgaver som sentimentanalyse, spørsmålssvar og navngitt enhetsgjenkjenning.

I kontrast er GPT en autoregressiv modell, noe som betyr at den genererer tekst sekvensielt fra venstre til høyre, og forutsier neste ord i en setning basert på ordene som kom før det.

GPT trenes ved å bruke et enveis (årsaks) språkmodelleringsmål, der det forutsier neste ord gitt konteksten til tidligere ord. Det er en av hovedgrunnene til at GPT er så populært for innholdsgenerering.

Treningsdata

BERT og GPT er forskjellige i hvilke typer treningsdata de bruker. BERT trenes ved å bruke en maskert språkmodell, noe som betyr at visse ord er maskert, og algoritmen må forutsi hva det neste ordet sannsynligvis blir. Dette hjelper til med å trene modellen og gjør den mer kontekstuelt nøyaktig.

I likhet med GPT er BERT trent på et storstilt tekstkorpus. Originalen ble trent på den engelske Wikipedia og BooksCorpus, et datasett som inneholder omtrent 11 000 upubliserte bøker, som utgjør rundt 800 millioner ord, fra ulike sjangre som skjønnlitteratur, vitenskap og databehandling.

BERT kan forhåndstrenes på forskjellige språkmodeller, som, som nevnt ovenfor, gjør det mulig å trene den for spesifikke applikasjoner, med den ekstra muligheten for å finjustere denne forhåndstrente modellen.

Omvendt ble GPT-3 trent på WebText-datasettet, et storskala korpus som inneholder nettsider fra kilder som Wikipedia, bøker og artikler. Den inkluderer også tekst fra Common Crawl, et offentlig tilgjengelig arkiv med nettinnhold. Og den kan også finjusteres for spesifikke formål.

Når det gjelder GPT-4, er informasjon om treningsdata litt knapp, men det er ganske sannsynlig at GPT-4 er trent på et lignende mangfoldig datasett, potensielt inkludert nyere kilder og et enda større datavolum for å forbedre forståelsen av naturlig språk og dens evne til å generere kontekstuelt relevant svar.

Brukssaker

Mens begge er svært allsidige NLP-modeller, skiller deres arkitektoniske forskjeller dem fra hverandre på noen få måter. For eksempel er BERT langt mer kapabel for følgende brukstilfeller:

  1. Sentimentanalyse: BERT kan bedre forstå den generelle følelsen til en gitt tekst når den analyserer ord i begge retninger.
  2. Navngitt enhetsgjenkjenning: BERT er i stand til å gjenkjenne ulike enheter i et spesifikt tekststykke, inkludert steder, personer eller organisasjoner.
  3. Svare på spørsmål: På grunn av sin overlegne forståelsesevne, er BERT mer i stand til å trekke ut informasjon fra tekst og svare nøyaktig på spørsmål.

GPT-læringsmodellen er heller ikke sløv. Selv om sentimentanalyse kanskje ikke er dens styrke, utmerker GPT seg i flere andre applikasjoner:

  1. Oppretting av innhold: Hvis du har brukt ChatGPT, vet du sannsynligvis om dette allerede. Når det kommer til innholdsskaping, overliste GPT de fleste andre modeller. Bare skriv en melding, og det vil gi et perfekt sammenhengende (men ikke alltid nøyaktig) svar.
  2. Oppsummerende tekst: Bare kopier og lim inn en stor tekstblokk i ChatGPT og be den om å oppsummere den. Den er i stand til å oppsummere tekst samtidig som den opprettholder kjerneinformasjonen.
  3. Maskinoversettelse: GPT kan finjusteres for å oversette tekst fra ett språk til et annet, takket være dens evne til å generere tekst basert på kontekst.

Brukervennlighet

I motsetning til ChatGPT, som lar alle utnytte GPT-modellen, er ikke BERT like lett tilgjengelig. Først må du laste ned den opprinnelig publiserte Jupyter Notebook for BERT og deretter sette opp et utviklingsmiljø ved hjelp av Google Colab eller TensorFlow.

Hvis du ikke vil bekymre deg for å bruke en Jupyter Notebook eller ikke er så teknisk, kan du vurdere å bruke ChatGPT, som er så enkelt som å bare logge på et nettsted. Men vi har også dekket hvordan du bruker Jupyter Notebook, som burde gi deg et godt utgangspunkt.

BERT og GPT viser egenskapene til AI

BERT- og GPT-treningsmodeller er klare eksempler på hva kunstig intelligens er i stand til. ChatGPT er mer populært og har allerede resultert i flere tilleggsapplikasjoner, som Auto-GPT, som forstyrrer arbeidsflyter og endrer jobbfunksjoner.

Selv om det er skepsis rundt AI-adopsjon og hva det kan bety for jobber, er potensialet for det gode også der. Mange selskaper som Google og OpenAI jobber allerede med å etablere kontroller og ytterligere regulere AI-teknologi, noe som kan love godt for fremtiden.