Brukere får vanligvis tilgang til store språkmodeller (LLM) gjennom bruk av et brukergrensesnitt gjennom en API. Selv om det gir flere fordeler, introduserer bruk av APIer også begrensninger, for eksempel behovet for konstant internett tilkobling, begrensede tilpasninger, mulige sikkerhetsproblemer og selskaper som begrenser modellfunksjoner gjennom en betalingsmur.

Med kvantiserte LLM-er nå tilgjengelig på HuggingFace, og AI-økosystemer som H20, Text Gen og GPT4All slik at du kan laste LLM-vekter på datamaskinen din, har du nå muligheten til en gratis, fleksibel og sikker AI.

For å komme i gang, her er syv av de beste lokale/offline LLM-ene du kan bruke akkurat nå!

1. Hermes GPTQ

En toppmoderne språkmodell finjustert ved hjelp av et datasett med 300 000 instruksjoner fra Nous Research. Hermes er basert på Metas LlaMA2 LLM og ble finjustert med for det meste syntetiske GPT-4-utganger.

Modell

Hermes 13b GPTQ

Modellstørrelse

7,26 GB

Parametere

13 milliarder

Kvantisering

4-bit

Type

LlaMA2

Tillatelse

GPL 3

Bruken av LlaMA2 som basismodell lar Hermes doble kontekststørrelsen eller en maksimal tokenstørrelse på 4096. Ved å kombinere den lange kontekststørrelsen og en koderarkitektur, er Hermes kjent for å gi lange svar og lave hallusinasjonsfrekvenser. Dette gjør Hermes til en flott modell for ulike naturlig språkbehandling (NLP) oppgaver, som å skrive kode, lage innhold og være en chatbot.

Det er flere kvantiseringer og versjoner av den nye Hermes GPTQ. Vi vil anbefale deg først å prøve Hermes-Llama2 13B-GPTQ-modellen, siden det er den enkleste versjonen å distribuere samtidig som den har god ytelse.

2. Falcon Instruct GPTQ

Bildekreditt: John Schnobrich/Unsplash

Denne kvantiserte versjonen av Falcon er basert på arkitekturen kun for dekoder finjustert på toppen av TIIs rå Flacon-7b-modell. Base Falcon-modellen ble trent ved å bruke enestående 1,5 billioner tokens hentet over det offentlige internett. Som en instruksjonsbasert dekodermodell lisensiert under Apache 2, er Falcon Instruct perfekt for små bedrifter som leter etter en modell å bruke for språkoversettelse og dataregistrering.

Modell

Falcon-7B-Instruct

Modellstørrelse

7,58 GB

Parametere

7 milliarder

Kvantisering

4-bit

Type

Falk

Tillatelse

Apache 2.0

Denne versjonen av Falcon er imidlertid ikke ideell for finjustering og er kun beregnet på slutninger. Hvis du vil finjustere Falcon, må du bruke råmodellen, som kan kreve tilgang til opplæringsmaskinvare i bedriftsklasse som NVIDIA DGX eller AMD Instinct AI-akseleratorer.

3.GPT4ALL-J Groovy

Bildekreditt: Nubelson Fernandes/Unplash

GPT4All-J Groovy er en dekodermodell som er finjustert av Nomic AI og lisensiert under Apache 2.0. GPT4ALL-J Groovy er basert på den originale GPT-J-modellen, som er kjent for å være god på tekstgenerering fra ledetekster. GPT4ALL -J Groovy har blitt finjustert som en chat-modell, som er flott for raske og kreative tekstgenereringsapplikasjoner. Dette gjør GPT4All-J Groovy ideell for innholdsskapere med å hjelpe dem med å skrive og kreative verk, enten det er poesi, musikk eller historier.

Modell

GPT4ALL-J Groovy

Modellstørrelse

3,53 GB

Parametere

7 milliarder

Kvantisering

4-bit

Type

GPT-J

Tillatelse

Apache 2.0

Dessverre ble basis-GPT-J-modellen trent på et datasett som kun er på engelsk, noe som betyr at selv denne finjusterte GPT4ALL-J-modellen bare kan chatte og utføre tekstgenereringsapplikasjoner på engelsk.

4.WizardCoder-15B-GPTQ

Bildekreditt: James Harrison/Unsplash

Ser du etter en modell som er spesifikt finjustert for koding? Til tross for sin betydelig mindre størrelse, er WizardCoder kjent for å være en av de beste kodemodellene som overgår andre modeller som LlaMA-65B, InstructCodeT5+ og CodeGeeX. Denne modellen ble opplært ved hjelp av en kodingsspesifikk Evol-Instruct-metode, som automatisk redigerer forespørslene dine for å være en mer effektiv kodingsrelatert ledetekst som modellen kan forstå bedre.

Modell

WizardCoder-15B-GPTQ

Modellstørrelse

7,58 GB

Parametere

15 milliarder

Kvantisering

4-bit

Type

LlaMA

Tillatelse

bigcode-openrail-m

WizardCoder er kvantisert til en 4-bits modell, og kan nå brukes på vanlige PC-er, hvor enkeltpersoner kan bruke den til eksperimentering og som en kodeassistent for enklere programmer og skript.

5. Veiviser Vicuna usensurert-GPTQ

Wizard-Vicuna GPTQ er en kvantisert versjon av Wizard Vicuna basert på LlaMA-modellen. I motsetning til de fleste LLM-er som er utgitt for offentligheten, er Wizard-Vicuna en usensurert modell med justeringen fjernet. Dette betyr at modellen ikke har samme sikkerhets- og moralstandarder som de fleste modeller.

Modell

Wizard-Vicuna-30B-Usensurert-GPTQ

Modellstørrelse

16,94 GB

Parametere

30 milliarder

Kvantisering

4-bit

Type

LlaMA

Tillatelse

GPL 3

Selv om muligens poserer en AI-justeringskontrollproblem, å ha en usensurert LLM får også frem det beste av modellen ved å få lov til å svare uten noen begrensninger. Dette lar også brukerne legge til sin egendefinerte justering for hvordan AI skal handle eller svare basert på en gitt forespørsel.

6. Orca Mini-GPTQ

Bildekreditt: Alex Kondratiev/Unsplash

Ønsker du å eksperimentere med en modell som er trent på en unik læringsmetode? Orca Mini er en uoffisiell modellimplementering av Microsofts Orca-forskningsartikler. Det ble trent ved hjelp av lærer-elev læringsmetoden, der datasettet var fullt av forklaringer i stedet for bare spørsmål og svar. Dette burde i teorien resultere i en smartere student, der modellen kan forstå problemet i stedet for bare å lete etter input- og output-par som hvordan typiske LLM-er fungerer.

Modell

Orca Mini-GPTQ

Modellstørrelse

8,11 GB

Parametere

3 milliarder

Kvantisering

4-bit

Type

LlaMA

Tillatelse

MIT

Med bare tre milliarder parametere er Orca Mini GPTQ enkel å kjøre selv på mindre kraftige systemer. Denne modellen bør imidlertid ikke brukes til noe profesjonelt, da den genererer falsk informasjon, partiske og støtende svar. Denne modellen bør brukes til å lære og eksperimentere med Orca og dens metoder.

7.LlaMA 2 Chat GPTQ

LlaMA 2 er etterfølgeren til den originale LlaMA LLM, som ga de fleste modellene på denne listen. LlaMA 2 er en samling av flere LLM-er, hver trent ved hjelp av 7-70 milliarder parametere. Totalt sett ble LlaMA 2 forhåndstrenet ved å bruke 2 billioner tokens med data hentet fra offentlig tilgjengelige instruksjonsdatasett.

Modell

Falcon-40B-Instruct-GPTQ

Modellstørrelse

7,26 GB

Parametere

3 milliarder

Kvantisering

4-bit

Type

OpenLlaMA

Tillatelse

EULA (metalisens)

LlaMA 2 er ment å brukes til kommersiell og forskningsmessig bruk. Som sådan er denne modellen best brukt etter finjustering for bedre ytelse på spesifikke oppgaver. Denne spesifikke LlaMA 2 chat GPTQ-modellen har blitt finjustert og optimert for engelsk dialog, noe som gjør den den perfekte modellen for bedrifter og organisasjoner å være en chatbot med liten eller ingen ekstra opplæring nødvendig. I henhold til vilkårene kan selskaper som har mindre enn 700 millioner brukere bruke LlaMA 2 uten å betale noen lisensavgift fra Meta eller Microsoft.

Prøv lokale store språkmodeller i dag

Noen av modellene oppført ovenfor har flere versjoner når det gjelder parametere. Generelt gir høyere parameterversjoner bedre resultater, men krever kraftigere maskinvare, mens lavere parameterversjoner vil generere resultater av lavere kvalitet, men kan kjøre på lavere maskinvare. Hvis du er usikker på om PC-en din kan kjøre modellen, prøv å gå for den lavere parameterversjonen først, og fortsett deretter til du føler at ytelsesfallet ikke lenger er akseptabelt.

Siden de kvantiserte modellene i denne listen bare tar opp noen få gigabyte plass og modelldistribusjonsplattformer som GPT4All og Text-Generation-WebUI kan enkelt installeres gjennom deres ett-klikks installasjonsprogram, å prøve ut flere modeller og modellversjoner bør ikke ta mye tid og krefter.

Så hva venter du på? Prøv en lokal modell i dag!