OpenAI har gitt ChatGPT muligheten til å snakke med en syntetisert stemme, og den kommer snart til smarttelefonen din.
ChatGPT er satt til å bli en interaktiv generativ AI-opplevelse. OpenAI avslørte at verdens ledende AI-chatbot vil kunne snakke og svare på brukerforespørsler ved å bruke en syntetisert, antagelig AI-generert, stemme.
Sammen med sin nyvunne stemme, vil ChatGPT også kunne svare på og diskutere spesifikke bilder lastet opp til den eller knipset mens du bruker ChatGPT Android- eller iOS-appen. Bildegjenkjenningsfunksjonen høres ut som Google Lens og andre apper som bruker nevrale nettverk for å oppdage data og informasjon nøyaktig.
OpenAI gir ChatGPT en stemme
25. september 2023, ChatGPT-utvikler OpenAI avslørt det ville gi sin verdensledende generative AI-chatbot en stemme. ChatGPT-brukere kan snakke direkte til chatboten og be om at den snakkes tilbake, slik at ChatGPT effektivt kan snakke direkte med stemmen for første gang.
OpenAIs eksempelklipp viser en kvinne som ber ChatGPT om å lage en unik sengetidshistorie, som ChatGPT behørig svarer på med en kvinnelig syntetisert stemme.
I følge Kablet, ble den nye tekst-til-tale-modellen utviklet internt. Den kan generere "menneskelignende" lyd fra tekst og noen sekunder med eksempeltale (ved hjelp av OpenAI Whisper-modellen) og snakke i forskjellige toner og stiler. Du kan finne en rekke stemmeprøver på OpenAI sin blogg.
Noen selskaper tar allerede OpenAIs nye stemmemodell i bruk. For eksempel bruker Spotify OpenAIs tekst-til-tale-modell for å oversette podcaster til forskjellige språk, og kombinerer ChatGPTs språkoversettelsesevne med dens nye taleevne.
ChatGPTs nye tekst-til-tale-modell er kun tilgjengelig for Plus- og Enterprise-abonnenter som bruker den offisielle Android- og iOS-apper og forventes å rulle ut i løpet av de neste to ukene (fra og med 25. september, 2023). Videre er den nye stemmefunksjonen begrenset til engelsk til å begynne med, selv om vi forventer at dette vil endre seg raskt.
ChatGPT kan gjenkjenne og analysere bilder og fotografier
Den andre delen av OpenAIs ChatGPT-oppdatering er muligheten til å analysere og snakke om bilder lastet opp til verktøyet. Alternativet for visuell bildeanalyse ble omtalt i GPT-4-oppdateringsvideoene, men har ikke blitt diskutert mye siden den gang (ChatGPT-kodetolk til side).
Nå får ChatGPT funksjonalitet som ligner på Google Lens. Du kan laste opp et bilde til ChatGPT eller ta et bilde med smarttelefonkameraet i ChatGPT-appen, og det vil detaljere bildet og legge til mer kontekst der det er nødvendig.
Å kalle det "ligner på Google Lens" gjør det en urettferdighet. Muligheten til å chatte frem og tilbake om bildet for å få mer informasjon og kontekst gjør det ekstremt nyttig for et bredt spekter av innstillinger. Det er imidlertid viktig å merke seg det som står med liten skrift, med OpenAI som gjør det klart at det har begrenset ChatGPTs "evne til å analysere og komme med direkte uttalelser om mennesker" av hensyn til personvern og nøyaktighet. Likevel, kan et OpenAI-drevet "Who Is This"-verktøy være i arbeid for fremtiden? (La oss håpe ikke!)
I likhet med den nye tekst-til-tale-modellen, vil OpenAI rulle ut bildegjenkjenning i løpet av de neste to ukene, selv om den vil være tilgjengelig på alle plattformer, ikke bare ChatGPT-appen.
Personvern, sikkerhet og andre problemer
Implikasjonene av en stemmedrevet ChatGPT er sterke. Jada, det er spennende. Evnen til å lage en unik syntetisert stemme ved å bruke bare en kort snutt som eksempel har betydelige personvern- og sikkerhetsproblemer. Potensialet for ondsinnede aktører til å utnytte disse verktøyene er enormt, og som med ethvert generativt AI-verktøy, når anden er ute av flasken, vil den absolutt ikke gå inn igjen. Ingen mengde AI-regulering fra regjeringer eller tankeledere kan snu tiden tilbake.
Til og med OpenAIs advarsel om emnet ser ut til å skjøre rundt det åpenbare til tross for at de nevner problemene:
Disse egenskapene utgjør imidlertid også nye risikoer, for eksempel potensialet for ondsinnede aktører til å utgi seg for offentlige personer eller begå svindel. Dette er grunnen til at vi bruker denne teknologien til å drive en spesifikk brukssak – talechat.
Gitt at dette er toppen av isfjellet, forvent pushback mot ChatGPTs nyvunne stemme, spesielt en gang det er en forutsigbar økning i ubehagelige overskrifter som hevder ChatGPT blir brukt til å begå svindel og så på.
OpenAI gjør ChatGPT til Go-To AI-appen
Jo mer OpenAI legger til brukervennlige funksjoner i ChatGPT, desto mer blir det den generative AI-appen. Som den første som nådde utbredt berømmelse under den første generative AI-boomen, leder ChatGPT fortsatt an og er bruker bare noen apper, til tross for konkurranse fra slike som Google Bard (og potensielt Google Gemini) og Anthropic's Claude.
Så lenge OpenAI kan fortsette å legge til funksjoner som gjør ChatGPT enklere å bruke, vil det holde folk hekta og presse stadig nærmere målet om et virkelig multimodalt AI-verktøy.