Lesere som deg er med på å støtte MUO. Når du foretar et kjøp ved å bruke lenker på nettstedet vårt, kan vi tjene en tilknyttet provisjon. Les mer.

OpenAIs Whisper er en ny AI-drevet løsning som kan gjøre stemmen din om til tekst. Det beste av alt er at det koster null.

Det er imidlertid en hake: det er mer utfordrende å installere og bruke enn ditt gjennomsnittlige Windows-verktøy. Spesielt hvis du vil bruke din Nvidia GPUs Tensor Cores for å gi den et fint løft.

Ikke bekymre deg, men. Det er derfor vi er her! Les videre for å finne ut hvordan du installerer og bruker den, men også, hvis du eier en, for å få Whisper til å dra nytte av din Nvidia GPU.

Hva er OpenAIs Whisper?

ChatGPT er i raseri nå for tiden, og vi har allerede sett det hvordan du kan bruke ChatGPT av OpenAI. Og likevel er det ikke det eneste interessante prosjektet til OpenAI.

Drevet av dyp læring og nevrale nettverk, er Whisper et naturlig språkbehandlingssystem som kan "forstå" tale og transkribere det til tekst. Men det er også sin egen greie, og sitter på et sted midt blant alle lignende løsninger:

  • Whisper er en AI-løsning "trent" på naturlig språk. Så det er bedre til å forstå "normal" menneskelig tale enn eldre løsninger.
  • Whisper kommer ikke med et grensesnitt, og kan heller ikke ta opp lyd. Den kan bare ta eksisterende lydfiler og sende ut tekstfiler.
  • Siden den er god til å "gjøre mening med språket", har Whisper også superkraften til automatisk oversettelse i et enkelt trinn.
  • Whisper er ikke en nettbasert tjeneste og kan fungere helt offline.
  • Hvis du har en relativt moderne Nvidia GPU (GTX970 eller nyere), kan Whisper kjøre i "hardware accelerated mode" for å øke hastigheten.
  • Det er ingen krav om å registrere seg, kjøpe en lisens eller kjøpe et abonnement.

Hvorfor støttes ikke AMD GPUer?

For at GPUer skal være nyttige for mer enn grafikk, må de fungere som fullt programmerbare prosessorer. Det er derfor Nvidia opprettet CUDA, offisielt ansett som "en parallell dataplattform og programmeringsmodell". For å lære mer om CUDA og relatert maskinvare ("CUDA-kjerner"), les artikkelen vår om hva er CUDA-kjerner og hvordan de forbedrer PC-spilling.

CUDA er proprietær Nvidia-teknologi, kun kompatibel med Nvidia GPUer. De nærmeste alternativene for AMDs maskinvare er OpenCL og Radeon Compute Platform. For å lære mer om hvordan hvert selskaps løsninger sammenlignes, sjekk artikkelen vår om AMD Compute Units vs. Nvidia CUDA-kjerner.

Sammenlignet med alternativene anses CUDA som mer modent, mer effektivt og enklere å bruke. Dermed retter de fleste utviklere seg kun mot CUDA, noe som igjen betyr at programvaren deres kun utnytter maskinvarefunksjonene på Nvidia GPUer. Og det inkluderer Whisper.

Hvordan laste ned og installere Whisper

Dessverre er Whisper ikke en frittstående app du kan laste ned, installere og kjøre. Den er avhengig av annen programvare, som også må installeres.

For Windows, for å holde denne veiledningen enkel, vil vi bruke Chocolatey mye for å installere de fleste nødvendige programvaredeler. Sjekk vår guide på den raskeste måten å installere Windows-programvare på for mer informasjon om Chocolatey.

For Linux og Mac skal installasjonsprosessen (unntatt Windows-banevariabelen og brukervennlige batchfiler vi lager) være lik.

  1. For å installere og bruke Whisper må du ha Python og dets PIP verktøyet installert og lagt til Windows "Path"-variabelen. For informasjon om det, sjekk artikkelen vår om hvordan installere Python PIP på Windows, Mac og Linux.
  2. Installere FFMPEG gjennom Chocolatey med denne kommandoen:
    sjokolade installere ffmpeg
    Installer også Python-versjonen med:
    pip3 installere python-ffmpeg
  3. Til slutt, installer Whisper fra Github-siden med:
    pip3 installer git+https://github.com/openai/whisper.git

Få Whispers CUDA-aktiverte versjon

Selv om Whisper ikke bruker Nvidia GPUer, er det lommelykt pakken den er avhengig av tilbyr en CUDA-akselerert versjon. Å bruke denne i stedet for den "vanlige" versjonen kan hjelpe Whisper med å fullføre transkripsjonene mye raskere ved hjelp av din Nvidia GPU.

For å få Whisper til å bruke CUDA-kjernene til Nvidia GPU:

  1. Hvis du allerede har "vanilje"-versjonen av lommelykten installert, avinstaller og rens rester av den med:
    pip3 avinstallere lommelykt
    Når det er gjort, følg det opp med:
    pip cacherense
  2. Installer fakkelens CUDA-aktiverte versjon med:
    pip3 installere torch torchvision torchaudio --extra-indeks-url https://download.pytorch.org/whl/cu117
  3. For å sjekke om Whisper kan bruke din Nvidia GPU, bruk:
    hviske --hjelp | findstr -i pytorch
    Du bør se (standard: cuda) i stedet for (standard: cpu).

Hva gjør jeg hvis fakkelen ikke kan installeres

Hvis du støter på feilen "ingen versjon funnet" mens du installerer lommelykten, må du kanskje installere en eldre versjon av Python parallelt med den nåværende.

Bruk denne kommandoen for å gjøre det:

sjokolade installere python --versjon OLDER_VERSION --side-by-side

Erstatt "OLDER_VERSION" med en versjon, som 3.10.

Deretter bruker du banen til den sekundære versjonen for alle "generiske" Whisper-kommandoer (f.eks. "c:\Python310\Scripts\pip.exe" i stedet for bare "pip").

Slik spiller du inn stemmen din

Du kan bruke hvilken som helst lydopptaksapp for å gjøre stemmen din om til en WAV- eller MP3-fil. Windows inkluderer en slik app - for mer informasjon om det, se hvordan du bruker Windows 10 Voice Recorder-appen.

For et mer fullverdig alternativ, prøv Audacity. Lær hvordan du gjør det med vår guide på hvordan du bruker Audacity til å ta opp lyd på Windows og Mac.

Hvordan begynne å transkribere med Whisper

Selv om Whisper ikke kommer med en brukervennlig GUI, er bruken svært enkel.

La oss si at vi har filen LatestNote.mp3 som inneholder tale på gresk, i mappe c:\MyAudioFiles, og ønsker å oversette den til engelsk og transkribere den til en tekstfil.

  1. Vi begynner med å løpe Ledeteksten eller Kraftskall.
  2. Vi "endre katalog" der lydfilen er lagret med denne kommandoen:
    cd C:\MyAudioFiles
  3. Vi slipper løs Whisper på filen med:
    hviske--modellutgangspunkt--Språkgr--oppgaveoversetteSiste notat.mp3

Når den er behandlet, vil tekstfilen (kalt "LatestNote.mp3.txt") vises i samme mappe. Åpne den i et tekstredigeringsprogram som Notisblokk for å se den oversatte teksten.

Vi brukte et oversettelseseksempel fordi engelsk transkripsjon er enda enklere: du trenger bare å "miste" flaggene "--language" og "-task". Således, for vanlig transkripsjon, vil kommandoen ovenfor være:

hviske--modellutgangspunktSiste notat.mp3

"Modell"-flagget er påkrevd fordi Whisper bruker ett av forskjellige alternativer. La oss utvide dem for å hjelpe deg med å velge det beste for dine behov.

Hvilken modell å velge?

Whisper tilbyr ulike språkmodeller. Jo større modellen er, jo mer forbedret nøyaktigheten, men også høyere maskinvarekrav. De er:

  1. Liten.
  2. Utgangspunkt.
  3. Liten.
  4. Medium.
  5. Stor.

De fleste som har engelsk som morsmål burde ha det bra med bittesmå eller utgangspunkt modeller. Personer som ikke har engelsk som morsmål kan se bedre resultater med større modeller, som liten og medium.

Vær imidlertid oppmerksom på at de mellomstore og store modellene krever over 8 GB VRAM (det vil si "minnet til din GPU").

For å velge en av dem, spesifiser modellen etter "--model"-bryteren i kommandoen:

hviske --modell tiny/small/medium/large [fil]

For eksempel:

hviske--modelllitenMin_stemme_notat.mp3

Slik effektiviserer du transkripsjonen din

Å måtte skrive inn hele Whisper-kommandoen hver gang du vil transkribere litt lyd kan fort bli kjedelig. La oss lage en globalt tilgjengelig batchfil for å strømlinjeforme prosessen.

  1. Løpe Windows utforsker og besøk C:-stasjonen.
  2. Opprett en mappe for skriptene dine, og kopier banen til utklippstavlen.
  3. I Windows Start-menyen, søk etter "bane" og velg Rediger systemmiljøvariablene.
  4. Finn Sti variabel under Brukervariabler for YOUR_USERNAME. Dobbeltklikk på den for å redigere den. Klikk på Ny, og lim inn banen til skriptmappen. Klikk på OK for å godta endringene.
  5. Gå tilbake til skriptmappen i Windows Utforsker. Lag en ny batchfil der som heter "wht.bat". "Inne i" den, plasser denne kommandoen:
    hviske --model tiny --language no %1
  6. Lag ytterligere to batchfiler, "whs" og "whm".
  7. Plasser dette i det første skriptet:
    hviske --model small --language no %1
  8. Plasser dette inne i den andre:
    hviske --model medium --language no %1

Gratulerer, du har nå tre skript for enkelt å bruke Whispers små, små og mellomstore modeller med lydfilene dine! For å transkribere en lydfil til tekst:

  1. Finn filen med Windows filutforsker.
  2. Høyreklikk på et tomt sted og velg Åpne i terminal.
  3. Skriv inn denne kommandoen, og bytt ut "wht" med "whs" eller "whm" for å bruke små eller mellomstore språkmodeller:
    hvaDIN_LYD_FIL.mp3

Skrive med lydens hastighet med hvisking

Selv de raskeste berøringsskriverne kan ikke matche hastigheten vi snakker med. Men inntil nylig var det ikke optimalt å snakke i stedet for å skrive for å lage dokumenter.

De fleste tale-til-tekst-løsninger ga middelmådige resultater. Du kunne finne noen løsninger som var verdt å prøve, men de var kompliserte å bruke, eller kostbare. Heldigvis endret Whisper alt det.

Etter trinnene ovenfor, bør du være klar til å transkribere eller oversette stemmen din med høy nøyaktighet, med kun én enkelt kommando.