Skaperne av ChatGPT har et annet verktøy som tar sikte på å ta belastningen av fingrene.
De samme menneskene bak ChatGPT har laget et annet AI-basert verktøy du kan bruke i dag for å øke produktiviteten din. Vi sikter til Whisper, en tale-til-tekst-løsning som overskygget alle lignende løsninger som kom før den.
Du kan bruke Whisper i programmene dine eller kommandolinjen. Og likevel, det beseirer selve formålet: å skrive uten tastatur. Hvis du trenger å skrive for å bruke den, hvorfor bruke den for å unngå å skrive? Heldigvis kan du nå bruke Whisper gjennom en desktop GUI. Enda bedre, den kan også transkribere stemmen din nesten i sanntid. La oss se hvordan du kan skrive med stemmen din ved å bruke Whisper Desktop.
Hva er OpenAIs Whisper?
OpenAIs Whisper er et automatisk talegjenkjenningssystem (ASR for korte) eller, for å si det enkelt, er en løsning for å konvertere talespråk til tekst.
Imidlertid, i motsetning til eldre dikterings- og transkripsjonssystemer, er Whisper en AI-løsning trent på over 680 000 timer med tale på forskjellige språk. Whisper tilbyr enestående nøyaktighet, og ganske imponerende er det ikke bare flerspråklig, men det kan også oversette mellom språk.
Enda viktigere, det er gratis og tilgjengelig som åpen kildekode. Takket være det har mange utviklere gitt koden sin inn i sine egne prosjekter eller laget apper som er avhengige av den, som Whisper Desktop.
Hvis du foretrekker "vanilje"-versjonen av Whisper og allsidigheten til terminalen i stedet for klønete GUI-er, sjekk artikkelen vår om hvordan gjøre stemmen din om til tekst med OpenAIs Whisper for Windows.
Er Whisper og Whisper Desktop det samme?
Til tross for det offisielle navnet, er Whisper Desktop en tredjeparts GUI for Whisper, laget for alle som foretrekker å klikke på knapper i stedet for å skrive kommandoer.
Whisper Desktop er en frittstående løsning som ikke er avhengig av en eksisterende Whisper-installasjon. Som en bonus bruker den en alternativ, optimalisert versjon av Whisper, så den skal yte bedre enn den frittstående versjonen.
Du er i den andre enden av spekteret, og i stedet for å søke en enklere måte å bruke Whisper på enn terminalen, søker du måter å implementere den i dine egne løsninger? Gled deg, for OpenAI har åpnet tilgang til ChatGPT og Whisper APIer.
Last ned og installer Whisper Desktop
Selv om Whisper Desktop er enklere å bruke enn den frittstående Whisper, er installasjonen mer innviklet enn å gjentatte ganger klikke på Neste i en veiviser.
- Besøk Whisper Desktops offisielle Github-side. Se til høyre, og klikk på siste versjon under Utgivelser.
- Under Eiendeler, klikk WhisperDesktop.zip og last den ned til din PC.
- Pakk ut det nedlastede arkivet til en mappe og bruk filbehandleren for å besøke det. Inne finner du Whisper Desktop-applikasjonen. Dobbeltklikk på den for å kjøre den.
- Du trenger også en Whisper-språkmodell i GCML binært format. Whisper Desktop vil gi deg to lenker for å anskaffe en. Hopp over den andre lenken for å generere din egen modell siden det er en mer komplisert prosess. Klikk på Klemende ansikt for å åpne den siden i standardnettleseren din, hvorfra du kan laste ned en fil som er klar til bruk.
- Versjonen av Whisper Desktop vi brukte mens vi skrev denne artikkelen ga en lenke til et foreldet depot hos Hugging Face. Hvis du møter det samme problemet, legg merke til en lenke til en nytt sted. Klikk på den for å besøke det nye depotet.
- Klikk på lenken som tar deg til den tilgjengelige modeller.
- Fra den listen klikker du på enten ggml-medium.bin eller ggml-medium.en.bin, avhengig av om du ønsker flerspråklig eller kun engelsk støtte i Whisper.
- Til slutt bør du ha nådd målet ditt. Legg merke til linjen som sier at denne filen er lagret med Git LFS og er for stor til å vises, men du kan fortsatt laste den ned. Klikk på nedlasting å gjøre nettopp det.
- Når filen er ferdig nedlastet, bruk din favorittfilbehandler (Filutforsker vil gjøre det) for å flytte den nedlastede språkmodellfilen til samme mappe som Whisper Desktop.
Transkribere med Whisper Desktop
Å transkribere med Whisper Desktop er enkelt, men du kan fortsatt trenge ett eller to klikk for å bruke appen.
Kjør Whisper Desktop på nytt. Savner den (fortsatt) den riktige banen til din nedlastede språkmodell? Klikk på knappen med de tre prikkene til høyre i feltet og velg manuelt filen du lastet ned fra Hugging Face.
Fra dette stedet kan du også bruke rullegardinmenyen ved siden av Modellimplementering for å velge om du vil kjøre Whisper på din GPU (GPU), på både CPU og GPU (Hybrid), eller bare på CPU (Henvisning).
De Avansert knappen fører til flere alternativer som påvirker hvordan Whisper vil kjøre på maskinvaren din. Men siden knappen tydelig sier at de er avanserte, foreslår vi at du bare justerer dem hvis du feilsøker eller vet hva du gjør. Hvis du angir feil alternativverdier her, kan det medføre en ytelsesstraff eller gjøre appen ubrukelig.
Klikk på OK for å gå til appens hovedgrensesnitt.
Hvis du allerede har et opptak av stemmen din du vil gjøre om til skrevet tekst, klikker du på Transkribere fil og velg den. Likevel vil vi bruke Whisper Desktop for live transkripsjon for denne artikkelen.
Alternativene som tilbys er enkle. Du kan velge Språk Whisper vil bruke, velg om du vil oversette mellom språk og aktiver appens Feilsøkingskonsoll.
De fleste engelsktalende brukere kan trygt hoppe over disse alternativene og bare sikre at riktig lydinngang er valgt fra rullegardinmenyen ved siden av Capture-enhet.
Forsikre Lagre til tekstfil og Legg til den filen er aktivert for å la Whisper Desktop lagre utdataene til en fil uten å overskrive innholdet. Bruke knappen med de tre prikkene til høyre for filens banefelt for å definere tekstfilen.
Klikk på Fangst for å begynne å transkribere talen din til tekst.
Whisper Desktop vil vise deg tre indikatorer for når den oppdager stemmeaktivitet, når den aktivt transkriberer, og når prosessen er stoppet.
Du kan fortsette å snakke så lenge du vil, og du bør av og til se de to første indikatorene blinke mens appen gjør stemmen din om til tekst. Klikk Stoppe når ferdig.
Tekstfilen du valgte skal åpnes i standard tekstredigeringsprogram, og inneholde i skriftlig form alt du sa til du klikket Stoppe.
Vi bør merke oss at du også kan gjøre det motsatte av det vi så her: konvertere hvilken som helst tekst til tale. På denne måten kan du lytte til hva som helst som om det var en podcast i stedet for å slite øynene dine med å myse mot skjermer. For mer informasjon om det, sjekk artikkelen vår om noen av de beste gratis onlineverktøyene for å laste ned tekst-til-tale som MP3-lyd.
Whisper Desktop Voice-Type Tips
Selv om Whisper Desktop kan være en livredder, som lar deg skrive med stemmen mye raskere enn du kunne skrive, er det langt fra perfekt.
Under vår testing fant vi ut at det av og til kan stamme, hoppe over noen ord, mislykkes i å transkribere før du stopp og start prosessen manuelt, eller sett deg fast i en løkke og fortsett å transkribere den samme frasen på nytt gjentatte ganger.
Vi tror dette er midlertidige feil som vil bli fikset siden den frittstående Whisper ikke viser de samme problemene.
Bortsett fra de mindre ujevnhetene, bør det være enkelt å snu stemmen til tekst med Whisper Desktop. Likevel, under testene våre fant vi ut at den kan yte enda bedre hvis...
- I stedet for å si bare to eller tre ord og deretter ta en pause, kan Whisper forstå deg bedre hvis du fortsetter lenger. Prøv å gi den i det minste en hel setning om gangen.
- Av samme grunn, unngå gjentatte ganger å starte og stoppe transkripsjonsprosessen.
- Når du innser at du har gjort en feil, ignorer den og fortsett. Lasting og lossing av språkmodellen ser ut til å være den mest tidkrevende delen av prosessen med den nåværende tilstanden til Whisper og vår tilgjengelige maskinvare. Så det er raskere å fortsette å snakke og deretter redigere feilene dine etterpå.
- Som med den frittstående versjonen av Whisper, er det best å bruke den optimale språkmodellen for tilgjengelig maskinvare. Du kan bruke opp til medium modell hvis din GPU har 8 GB VRAM. For mindre VRAM, gå for de mindre modellene. Velg bare det litt mer nøyaktige, men også mye mer krevende stor modell hvis du bruker en GPU med 16 GB VRAM eller mer.
- Husk at jo større språkmodellen er, desto langsommere blir transkripsjonsprosessen. Ikke gå for en modell større enn nødvendig. Du vil sannsynligvis finne at Whisper Desktop allerede kan "forstå deg" mesteparten av tiden med mellomstore eller mindre modeller, med bare én eller to feil per avsnitt.
Skriver du fortsatt? Bruk stemmen din med hvisking
Til tross for at det krever litt tid å sette opp, som du vil se når du prøver det, yter Whisper Desktop mye bedre enn de fleste alternativer, med mye høyere nøyaktighet og bedre hastighet.
Etter at du har begynt å bruke det til å skrive med stemmen din, kan tastaturet ditt se ut som en relikvie fra gamle tider for lengst.