Talegjenkjenningsteknologi har en rik utviklingshistorie som har ført den til det den er i dag. Det er kjernen i det moderne livet, og gir oss muligheten til å utføre oppgaver bare ved å snakke med en enhet. Så, hvordan har denne forbløffende teknologien utviklet seg gjennom årene? La oss ta en titt.
1952: Audrey System
Det første trinnet i stemmegjenkjenning kom på begynnelsen av 1950 -tallet. Bell Laboratories utviklet den første maskinen som kunne forstå den menneskelige stemmen i 1952, og den fikk navnet Audrey System. Navnet Audrey var en slags sammentrekning av uttrykket Automatic Digit Recognition. Selv om dette var en stor innovasjon, hadde det noen store begrensninger.
Mest fremtredende kunne Audrey bare gjenkjenne tallene 0-9, ingen ord. Audrey ville gi tilbakemelding når høyttaleren sa et tall ved å tenne opp 1 av 10 lyspærer, hver tilsvarer et siffer.
Selv om den kunne forstå tallene med 90% nøyaktighet, var Audrey begrenset til en bestemt stemmetype. Dette er grunnen til at den eneste personen som virkelig ville bruke det var HK Davis, en av utviklerne. Når et tall ble talt, måtte høyttaleren vente minst 300 millisekunder før han sa det neste.
Det var ikke bare begrenset i funksjonalitet, men det var også begrenset i bruk. Det var ikke mye bruk for en maskin som bare kunne forstå tall. En mulig bruk var å ringe telefonnumre, men det var mye raskere og enklere å slå numrene for hånd. Selv om Audrey ikke hadde en grasiøs eksistens, står den fortsatt som en stor milepæl i menneskelig prestasjon.
I slekt: Slik bruker du stemmeskriving på Microsoft Word
1962: IBMs skoboks
Et tiår etter Audrey prøvde IBM seg på å utvikle et talegjenkjenningssystem. På verdensmessen i 1962 viste IBM frem et stemmegjenkjenningssystem som heter Showbox. I likhet med Audrey var hovedoppgaven å forstå sifrene 0-9, men den kunne også forstå seks ord: pluss, minus, falsk, total, delsum og av.
Skoeske var en matematisk maskin som kunne gjøre enkle regneoppgaver. Når det gjelder tilbakemeldinger, i stedet for lys, var Shoebox i stand til å skrive ut resultatene på papir. Dette gjorde den nyttig som en kalkulator, selv om høyttaleren fremdeles måtte pause mellom hvert tall/ord.
1971: IBMs automatiske samtaleidentifikasjon
Etter Audrey og Shoebox utviklet andre laboratorier rundt om i verden teknologi for stemmegjenkjenning. Det tok imidlertid ikke fart før på 1970-tallet, da IBM i 1971 brakte den første oppfinnelsen på markedet. Det ble kalt det automatiske samtaleidentifikasjonssystemet. Det var det første talegjenkjenningssystemet som ble brukt over telefonsystemet.
Ingeniører ville ringe og bli koblet til en datamaskin i Raleigh, North Carolina. Innringeren ville deretter ytre ett av de 5000 ordene i vokabularet og få et "talt" svar som et svar.
I slekt: Slik bruker du stemmediktasjon på en Mac
1976: Harpy
På begynnelsen av 1970 -tallet interesserte det amerikanske forsvarsdepartementet seg for stemmegjenkjenning. DARPA (Defense Advanced Research Projects Agency) utviklet programmet Speech Understanding Research (SUR) i 1971. Dette programmet ga finansiering til flere selskaper og universiteter for å hjelpe forskning og utvikling for stemmegjenkjenning.
I 1976, på grunn av SUR, utviklet Carnegie Mellon University Harpy System. Dette var et stort sprang innen teknologi for stemmegjenkjenning. Systemene fram til det tidspunktet var i stand til å forstå ord og tall, men Harpy var unik ved at den kunne forstå fulle setninger.
Den hadde et ordforråd på omtrent 1.011 ord, som ifølge en publikasjon av B. Lowerre og R. Reddy, likestilt med mer enn en billion forskjellige mulige setninger. I publikasjonen heter det at Harpy kunne forstå ord med 93,77% nøyaktighet.
1980 -tallet var en sentral tid for stemmegjenkjenningsteknologi, ettersom dette er tiåret hvor stemme anerkjennelsesteknologi, siden dette var tiåret vi ble introdusert for Hidden Markov -metoden (HMM). Den viktigste drivkraften bak HMM er sannsynlighet.
Når et system registrerer et fonem (det minste taleelementet), er det en viss sannsynlighet for hva det neste blir. HMM bruker disse sannsynlighetene til å bestemme hvilket fonem som mest sannsynlig kommer neste og danner de mest sannsynlige ordene. De fleste talegjenkjenningssystemer i dag bruker fremdeles HMM til å forstå tale.
1990 -tallet: Stemmegjenkjenning når forbrukermarkedet
Siden oppfatningen av stemmegjenkjenningsteknologi har det vært på reise for å finne et rom i forbrukermarkedet. På 1980-tallet viste IBM frem en prototypemaskin som kunne diktere tale til tekst. Imidlertid var det først på begynnelsen av 1990 -tallet at folk begynte å se applikasjoner som dette i hjemmene sine.
I 1990 introduserte Dragon Systems den første tale-til-tekst-dikteringsprogramvaren. Den ble kalt Dragon Dictate, og den ble opprinnelig utgitt for Windows. Dette $ 9000 -programmet var revolusjonerende for å bringe stemmegjenkjenningsteknologi til massene, men det var en feil. Programvaren som brukes diskret diktering, betyr at brukeren må stoppe mellom hvert ord for at programmet skal hente dem.
I 1996 bidro IBM igjen til industrien med Medspeak. Dette var også et tale-til-tekst-dikteringsprogram, men det led ikke av diskret dikering slik Dragon Dictate gjorde. I stedet kan dette programmet diktere kontinuerlig tale, noe som gjorde det til et mer overbevisende produkt.
I slekt: Slik bruker du Google Assistant med hodetelefoner
2010: En jente som heter Siri
Gjennom 2000 -tallet eksploderte teknologi for stemmegjenkjenning i popularitet. Den ble implementert i mer programvare og maskinvare enn noen gang før, og et avgjørende trinn i utviklingen av stemmegjenkjenning var Siri, den digitale assistenten. I 2010 introduserte et selskap ved navn Siri den virtuelle assistenten som en iOS -app.
På den tiden var Siri en imponerende programvare som kunne diktere hva høyttaleren sa og gi en utdannet og vittig respons. Dette programmet var så imponerende at Apple kjøpte selskapet samme år og ga Siri en liten overhaling og presset det mot den digitale assistenten vi kjenner i dag.
Det var gjennom Apple at Siri fikk sin ikoniske stemme (stemme av Susan Benett) og en rekke nye funksjoner. Det bruker naturlig språkbehandling å kontrollere de fleste av systemets funksjoner.
2010 -tallet: The Big 4 Digital Assistants
Som det ser ut, dominerer fire store digitale assistenter stemmegjenkjenning og tilleggsprogramvare.
- Siri finnes på nesten alle Apples produkter: iPhones, iPods, iPads og Mac -datamaskiner.
- Google Assistant er til stede på de fleste av de 3 milliarder + Android -enhetene på markedet. I tillegg kan brukerne bruke kommandoer på tvers av mange Google -tjenester, som Google Home.
- Amazon Alexa har ikke mye av en dedikert plattform der den bor, men den er fortsatt en fremtredende assistent. Den kan lastes ned og brukes på Android -enheter, Apple -enheter. og til og med velge bærbare Lenovo
- Bixby er den nyeste oppføringen til listen over digitale assistenter. Det er Samsungs hjemmelagde digitale assistent, og den er tilstede blant selskapets telefoner og nettbrett.
En uttalt historie
Stemmegjenkjenning har kommet langt siden Audrey -tiden. Det har gjort store gevinster på flere felt; for eksempel i henhold til Clear Bridge Mobile, tjente det medisinske feltet på talebaserte chatbots under pandemien i 2020. Fra å bare kunne forstå tall til å forstå forskjellige varianter av hele setninger, viser stemmegjenkjenning seg å være en av de mest nyttige teknologiene i vår moderne tidsalder.
Vi bruker stemmegjenkjenning hele tiden, men hvordan fungerer det?
Les neste
- Teknologi forklart
- Siri
- Google Assistant
- Alexa
- Bixby
- Stemmekommandoer
Arthur er en teknisk journalist og musiker bosatt i Amerika. Han har vært i bransjen i nesten et tiår, etter å ha skrevet for nettpublikasjoner som Android Headlines. Han har en dyp kunnskap om Android og ChromeOS. Sammen med å skrive informasjonsartikler, er han også flink til å rapportere tekniske nyheter.
Abonner på vårt nyhetsbrev
Bli med i vårt nyhetsbrev for tekniske tips, anmeldelser, gratis ebøker og eksklusive tilbud!
Klikk her for å abonnere