GPT-4 er her, og dette er de nye funksjonene du bør sjekke ut.
OpenAI har endelig lansert sin etterlengtede GPT-oppdatering, GPT-4. Large Language Model (LLM) kommer med noen kraftige nye funksjoner og muligheter som allerede har sjokkert brukere over hele verden.
I tillegg til å være betydelig bedre enn GPT-3.5, kan den eksisterende LLM som driver OpenAIs virale chatbot ChatGPT, GPT-4 forstå mer komplekse innganger, har en langt større inndatagrense for tegn, har multimodale muligheter og er angivelig tryggere å bruk.
1. GPT-4 kan forstå mer komplekse innganger
En av GPT-4s største nye funksjoner er evnen til å forstå mer komplekse og nyanserte spørsmål. I følge OpenAI, GPT-4 "viser ytelse på menneskelig nivå på ulike faglige og akademiske standarder."
Dette ble demonstrert ved å sette GPT-4 gjennom flere eksamener på menneskelig nivå og standardiserte tester, som SAT, BAR og GRE, uten spesifikk opplæring. Ikke bare forsto og løste GTP-4 disse testene med en relativt høy poengsum over hele linja, men den slo også ut forgjengeren, GPT-3.5, hver gang.
Evnen til å forstå mer nyanserte inndatameldinger blir også hjulpet av det faktum at GPT-4 har en mye større ordgrense. Den nye modellen kan håndtere inndatameldinger på opptil 25 000 ord (for kontekst var GPT-3.5 begrenset til 8 000 ord). Dette vil direkte påvirke detaljene brukere kan presse inn i meldingene sine, og gir derfor modellen mye mer informasjon å jobbe med og produserer lengre utdata.
GPT-4 støtter også over 26 språk, inkludert lavressursspråk som latvisk, walisisk og swahili. Ved benchmarking på tre-skudds nøyaktighet på MMLU-benchmark, slo GPT-4 GPT-3.5 så vel som andre ledende LLM-er som PaLM og Chinchilla når det gjelder engelskspråklig ytelse på 24 språk.
2. Multimodale evner
Den forrige versjonen av ChatGPT var begrenset til bare tekstmeldinger. Derimot er en av GPT-4s nyeste funksjoner dens multimodale evner. Modellen kan godta både tekst- og bildeoppfordringer.
Dette betyr at AI kan akseptere et bilde som input og tolke og forstå det akkurat som en tekstmelding. Denne muligheten spenner over alle størrelser og typer bilder og tekst, inkludert dokumenter som kombinerer de to, håndtegnede skisser og til og med skjermbilder.
Imidlertid går GPT-4s bildelesemuligheter utover bare å tolke dem. OpenAI viste dette i sin utviklerstrøm (over), der de ga GPT-4 en håndtegnet mockup av et vitsnettsted. Modellen fikk i oppgave å skrive HTML- og JavaScript-kode for å gjøre mockupen til et nettsted mens den erstattet vitsene med faktiske.
GPT-4 skrev koden mens han brukte oppsettet spesifisert i mockupen. Ved testing produserte koden en fungerende side med, som du kan gjette, faktiske vitser. Betyr det AI-fremskritt vil bety slutten på programmeringen? Ikke helt, men det er fortsatt en funksjon som vil være nyttig for å hjelpe programmerere.
Så lovende som denne funksjonen virker, er den fortsatt i forskningsforhåndsvisning og ikke offentlig tilgjengelig. I tillegg tar modellen mye tid å behandle visuelle input, med OpenAI selv som sier at det kan ta arbeid og tid å bli raskere.
3. Større styrbarhet
OpenAI hevder også at GPT-4 har høy grad av styrbarhet. Det har også gjort det vanskeligere for AI å bryte karakter, noe som betyr at det er mindre sannsynlighet for å mislykkes når det implementeres i en app for å spille en bestemt karakter.
Utviklere kan foreskrive AIs stil og oppgave ved å beskrive retningen i "system"-meldingen. Disse meldingene lar API-brukere i stor grad tilpasse brukeropplevelsen innenfor visse grenser. Siden disse meldingene også er den enkleste måten å "jailbreak" modellen på, jobber de også med å gjøre dem sikrere. Demoen for GPT-4 fant dette punktet ved å få en bruker til å prøve å stoppe GPT-4 fra å være en sokratisk veileder og svare på spørsmålet deres. Modellen nektet imidlertid å bryte karakter.
4. Sikkerhet
OpenAI brukte seks måneder på å lage GPT-4 sikrere og mer tilpasset. Selskapet hevder at det er 82 % mindre sannsynlighet for å svare på forespørsler om upassende eller på annen måte ikke tillatt innhold, 29 % mer sannsynlig å svare i samsvar med OpenAIs retningslinjer på sensitive forespørsler, og 40 % større sannsynlighet for å produsere faktasvar sammenlignet med GPT-3.5.
Den er ikke perfekt, og du kan fortsatt forvente at den "hallusinerer" fra tid til annen og kan ta feil i sine spådommer. Visst, GPT-4 har bedre oppfatninger og prediksjonskraft, men du bør fortsatt ikke stole blindt på AI.
5. Ytelsesforbedringer
Utenom å evaluere modellens ytelse på menneskelige eksamener, evaluerte OpenAI også boten på tradisjonelle benchmarks designet for maskinlæringsmodeller.
Den hevder at GPT-4 "betraktelig overgår" eksisterende LLM-er og "de fleste toppmoderne modeller." Disse benchmarkene inkluderer nevnte MMLU, AI2 Reasoning Challenge (ARC), WinoGrande, HumanEval og Drop, som alle tester individuelle evner.
Du vil finne lignende resultater når du sammenligner ytelse på akademiske visjonsreferanser. Tester som kjøres inkluderer VQAv2, TextVQA, ChartQA, AI2 Diagram (AI2D), DocVQA, Infographic VQA, TVQA og LSMDC, som alle topper GPT-4. OpenAI har imidlertid uttalt at GPT-4s resultater i disse testene "ikke fullt ut representerer omfanget av dens evner" ettersom forskere fortsetter å finne nye og mer utfordrende ting modellen kan takle.
Lite trinn for GPT-4, Giant Leap for AI
Med mer nøyaktighet, sikkerhet ved bruk og avanserte funksjoner har GPT-4 blitt utgitt for publikum via ChatGPT+ månedlige abonnementsplan som koster 20 per måned. I tillegg har OpenAI inngått samarbeid med forskjellige organisasjoner for å begynne å bygge forbrukerrettede produkter med GPT-4. Microsoft Bing, Duolingo, Stripe, Be My Eyes og Khan Academy, blant andre, har allerede implementert GPT-4 i produktene sine.
GPT-4 kan være en inkrementell oppdatering over GPT-3.5, men det er en enorm gevinst for AI totalt sett. Etter hvert som modellen blir mer tilgjengelig, både for den gjennomsnittlige brukeren og utviklerne gjennom API-en, ser det ut til at den vil være et godt argument for LLM-implementeringer på tvers av felt.