For bare måneder siden, hvis du ønsket å lage et bilde av noe, måtte du kunne skissere, male eller bruke et av photoshop-verktøyene andre fortsetter å snakke om. Etter 2022 endret alt seg, alt takket være AI – ja, som i «kunstig intelligens».

I stedet for å prøve å dominere verden, kan kunstnerisk tilbøyelige AI-verktøy gjøre alt du beskriver for dem til et bilde.

Bli med oss ​​når vi går inn i verden av AI-drevet tekstvisualisering, og se hvordan du kan bruke slike verktøy til å konvertere tankene dine til faktiske bilder ved å bare skrive det du har i tankene.

Dall-E: Den kunstneriske siden av OpenAIs GPT-3

De første AI-drevne verktøyene som ble populære var basert på OpenAIs GPT-3. En av grunnene var prosjektets åpenhet for ekstern tilgang, noe som førte til noen forslag om at GPT-3 er fremtiden for kreativt arbeid.

I dag kan du bruke de offisielle verktøyene du finner på OpenAIs betaside eller tredjepartsløsninger som utnytter dens språklige superkrefter. Du kan for eksempel be GPT-3 om å komme med et utkast til et innlegg, svare på enkle spørsmål, eller til og med revidere eller oversette tekst.

I 2022 avslørte OpenAI at GPT-3 var like god til å lage bilder. DALL-E-prosjektet, et skuespill på Pixars WALL-E-film og Dalis navn, bruker GPT-3 ikke for å jobbe med tekst, men som en bildefremstillingsmotor.

Akkurat som med GPT-3 og tekst, er ikke DALL-E egentlig et kreativt geni, som materialiserer bilder ut av løse luften. I stedet har den blitt «trent» på millioner av bilder som allerede finnes på nettet. Dens AI-krefter ligger i å analysere disse bildene, ta elementer fra dem, justere, forvandle, justere og til slutt kombinere dem til nye bilder.

Det er i hvert fall en forenklet versjon av det som skjer i bakgrunnen. De fleste vil bare bry seg om det de ser foran seg, og det er en tekstboks der du kan skrive noe og se det omgjort til et bilde etter noen minutter.

Googles bildesvar

Google er en av de tre beste «spillerne» innen AI-forskning. Fremgangen deres er likevel ikke lett synlig, og implementeringen av dem i produkter er heller ikke like tilgjengelige som OpenAIs tilbud.

En av Google AIs første allment tilgjengelige implementeringer var i Google Docs og Gmail, i form av mer intelligent autofullføring og forslag, kjent som Smart Compose. Vi vil ikke dykke ned i detaljer siden vi tidligere har dekket Smart Compose (og hvordan du kan bruke det).

Når disse funksjonene er aktive, sammenligner Googles nettapper hva brukeren skriver med hva millioner av andre skrev tidligere. Deretter foreslår det hva de skrev etterpå.

Det er et bevis på at til tross for det vi liker å tro, er vi ikke så forskjellige. Hvis 99 av 100 personer skriver «senere» etter «se deg», er det sannsynligvis det vi ville fortsette å skrive også.

Vi har alle brukt en eller annen form for autofullføring, selv fra "dumbphone"-tidens T9 prediktive tekstsystem. Derfor virket ikke Googles AI-verktøy like intelligente som OpenAIs GPT-3. De føltes ikke så mye mer i bruk enn et bedre T9-system forbedret for det 21. århundre. Og det er også derfor Imagens avsløring var litt av et sjokk.

Som en DALL-E på steroider, er Imagen et tekstvisualiseringsverktøy. Basert på det som er tilgjengelig i dag, kan Imagen produsere "renere" og mer levende bilder samtidig som den vet hvordan man skal håndtere avanserte funksjoner som diffusjon og gjennomsiktighet.

Dessverre, i skrivende stund er tilgangen til Imagen fortsatt begrenset, så vi kunne ikke prøve den ut.

DALL-E Mini and Friends: Open for Business

Du har ikke fritt tilgang til DALL-E og Imagen—ennå. Likevel er mange alternativer allerede tilgjengelige hvis du vil tulle med AI-drevet tekstbildegenerering.

Med tanke på at dette er de første dagene, og resultatene eller brukeropplevelsen de tilbyr kan være langt fra optimal, er det likevel verdt å sjekke ut noen av følgende.

Lage memes med Dall-E Mini

Takket være en kombinasjon av mer enn tilstrekkelige resultater og et brukervennlig grensesnitt, men enda viktigere, den brede tilgjengeligheten, ble DALL-E mini en av de mest populære AI-tekstvisualiseringene.

Langt fra perfekt, noen ganger kan resultatene til DALL-E mini være mer abstrakte enn tiltenkt.

Andre ganger kan det mislykkes i å skape det du hadde i tankene, men det kan komme ganske nært.

Etter eksplosjonen i popularitet, flyttet skaperne til DALL-E mini den inn i et nytt hjem under ny merkevare. Nå kan du finne DALL-E mini sin nyeste versjon som Craiyon på sin egen side.

Å bruke Craiyon i dag er like enkelt som å søke på nettet etter et eksisterende bilde. Du kan besøke nettstedet, skrive inn en beskrivelse av bildet ditt i tekstfeltet og trykke Enter. Etter en stund vil du se resultatene på skjermen.

Det som er slående er hvor gode Craiyon og lignende verktøy er til å etterligne visuelle stiler. For eksempel har vi bedt den om å trylle fram bilder av en valp på et skateboard:

Deretter brukte vi den nøyaktige setningen, men la til en "Pixar-stil" etter den. Etter en stund viste Craiyon et rutenett av mer «tegneserieaktige» bilder, nærmere det vi oppfatter som Pixars strålesporede grafikk i deres elskede filmer.

Craiyon ga oss enda bedre resultater da vi erstattet "Pixar-stil" med "anime-stil" i samme ledetekst.

Anime er mer stilisert i utseendet enn Pixars mer realistiske bilder, som ser ut til å ha hjulpet Craiyon med å produsere noen nesten klare til bruk bilder.

Tuller rundt med latent spredning

Latent Diffusion-modellen trent på LAION-400M-datasettet er en annen interessant AI-tekstvisualisering. Imidlertid er det også mer komplisert i bruken. Du må kjøre den online i en virtuell maskin og leke med de forskjellige parameterne i stedet for bare å skrive i et tekstfelt. Likevel er det enklere enn det høres ut.

  1. Besøk Google Latent Diffusion colab space det er for øyeblikket hjemmet.
  2. Rull litt ned og legg merke til Spør felt under Parametere. Erstatt standardprompten med det du vil at bildet skal vise.
  3. Velge Kjør alle fra Kjøretid menyen, eller trykk CTRL + F9.
  4. Hvis du ønsker å kunne eksportere de produserte bildene direkte fra verktøyet, svar positivt når du blir spurt om du vil koble det til Google Disk-kontoen din. Verktøyet tar en stund å fullføre konfigurasjonen og må laste ned noen filer under prosessen.

Øke verdiene for Trinn, Iterasjoner, og Samples_in_parallel, kan føre til mer detaljerte resultater. Verktøyet er imidlertid ekstremt ressurskrevende på Googles servere. Som et resultat kan det krasje hvis du øker disse verdiene for mye, eller prosessen med å lage et bestemt bilde blir mer komplisert enn forventet.

Interessante alternativer

Vi har brukt mye tid på å teste DALL-E mini og Latent Diffusion. Vår vitenskapelige metode besto av to distinkte deler. Først måtte vi komme opp med konsepter som nøyaktig kunne beskrives som bonkers. Be så disse AI-visualiseringsverktøyene om å gjøre dem om til bilder. Oftere enn forventet lyktes de, og nærmet seg det generelle oppsettet vi hadde sett for oss.

Vi har også prøvd noen av de tilgjengelige alternativene for denne artikkelen. Vi venter fortsatt på tilgang til andre. Noen av de som er verdt å sjekke ut er (i ingen spesiell rekkefølge):

  • Midjourney
  • MindsEye beta
  • StarryAI
  • Drøm
  • Disco diffusjon

Vil AI-generert kunst erstatte visuell kunst?

Overfloden og den stadig økende populariteten til bildegenererende AI-drevne verktøy får mange til å konkludere med at visuell kunst snart vil dø. Hva er vitsen med å investere tid og energi for å lære å tegne eller bruke komplisert programvare for å visualisere ting når en AI kan gjøre det raskere (og snart bedre) enn deg?

Hvis du la merke til, er alle disse verktøyene "trent på datasett." På vanlig engelsk betyr dette at de gjør det de gjør takket være at mennesker allerede har gjort det samme før.

Det er hintet om hvorfor disse verktøyene ikke kan erstatte menneskelig kunstnerskap, kreativitet og oppfinnsomhet. De er etterligninger, smarte replikatorer. Uten de menneskelig produserte originalene som de er trent på, ville de ikke vært i stand til å produsere noe.

Likevel er det nå, og vi innrømmer at vi ikke vet hva fremtiden bringer. Foreløpig kan billedkunstnere sove trygt. I takt med at AI utvikler seg, er mange spesialister på emnet enige om at det ikke er et spørsmål om det noen gang vil erstatte arbeidet til folk som ditt virkelig. Det er bare et spørsmål om når.

Men hei, det er ikke bare undergang og dysterhet. Mens Skynet forbereder seg på å ta jobbene våre, kan vi i det minste lysne opp humøret vårt ved å enkelt lage bilder av valper på skateboard!