AI kan lure oss til å forveksle generert kunst for ekte bilder. Så hvorfor er hendene en så stor utfordring?
AI-generatorer utvikler seg foran øynene våre i et skummelt tempo, men de har fortsatt feil. Å se merkelige detaljer i AI-bilder er faktisk ganske morsomt. Det er derfor Midjourney-hender ble et hett tema, et problem som er vanlig i mange motorer.
La oss bryte ned hvorfor hendene utfordrer AI-bildegeneratorer så mye. Programmererne deres fikser allerede dette memeverdige problemet, men det er interessant å tenke på hvordan kunstig intelligens lærer, for ikke å nevne hva som kommer i veien.
Hvorfor AI-genererte hender gjorde en oppsikt
Alle som bruker AI-motorer for å lage bilder, har kanskje lagt merke til at hendene sjelden kommer riktig ut, men problemet snudde hodet da en haug med "bilder" dukket opp på Twitter.
Ved nærmere ettersyn ga folkets rare hender dem bort som AI-genererte bilder. Det faktum at dette var Midjourneys forsøk på hendene gjorde situasjonen mer interessant.
En av de beste AI-motorene som finnes klarte ikke å takle intrikatheten til menneskehender, så egenskapene til Midjourney og konkurrentene ble satt på prøve. Riktig nok er til og med DALL-E utsatt for urealistiske fingre og negler.
Hypen var ute av proporsjoner, med tanke på at AI-genererte hender alltid har vært et problem, men den ekstra oppmerksomheten førte til utgivelsen av Midjourney v5 for å forbedre v4.
Den nye versjonen gjorde et poeng av å forbedre hånddesignet, en klar indikasjon på at AI-ingeniører tok hensyn til det morsomme opprøret og bestemte seg for å oppgradere programvarens evner.
Andre motorer er trege til å følge Midjourneys eksempel, så fikse AI-kunst med Photoshop er fortsatt en uvurderlig ferdighet. Hovedhindringen for programmerere er hvor komplisert det er å trene kunstig intelligens for å trekke overbevisende hender.
Hvorfor sliter AI-bildegeneratorer med hendene?
AI-motorer bruker generative adversarial networks (GAN) eller Stable Diffusion for å produsere bilder. Begge teknologiene krever omfattende kildemateriale, opplæring og prosessorkraft for å lage selv de mest grunnleggende kunstverkene.
Siden allerede eksisterende bilder er sentrale i opplæringen til en AI, må programmerere mate programvaren deres tusenvis, om ikke millioner, av bilder ved siden av meldinger – gjenta prosessen om og om igjen til motoren forstår hva et bestemt ord refererer til og hvordan det skal representere det gjenstand.
Men kildebildene en AI lærer av er hovedsakelig 2D, der hender er avbildet i en rekke posisjoner. Enten rett eller krøllet, viser fem fingre eller tre.
På slutten av dagen forstår ikke en maskin begrepet hender, og bildene den lærer av viser ikke alltid hendene tydelig eller konsekvent nok. Det er derfor Midjourney-hender kan være så stygge: AI-forvirring.
Like gyldig som Elon Musks bekymringer om AI-utvikling kan være, noen deler av teknologien har fortsatt mye å lære. Og hindringene deres går utover utilstrekkelige eksempler på hender.
Andre grunner til at AI-bildegeneratorer er trege med å forbedres
Ser på Midjourneys modeller, v5 tilbyr avansert sammenheng mellom tekstmeldinger og produserte bilder, samt høyere oppløsning og tilleggsverktøy. Men slike prestasjoner er ikke billige.
Å trene en AI til å gjøre det bedre med hender krever at den mates med bedre bilder, spesielt i 3D. Det betyr at det brukes mye tid og arbeidskraft på prosesser, fra å anskaffe kildemateriale til å forbedre kodingen og gjenta opplæringen til AI-en får det riktig.
Selv da kan programvaren gjøre feil i ellers fantastiske kunstverk. I tillegg til å være en stor og kompleks jobb, er den dyr. Så ikke forvent gratis AI tekst-til-bilde-generatorer for å gå opp til Midjourneys kaliber ennå.
Enkelt sagt, problemet med AI-motorer handler ikke bare om disse dataprogrammenes manglende evne til å fullstendig forstå hvordan menneskelige funksjoner som hender og føtter ser ut eller fungerer. Det kommer også ned til hva det koster, og teknologiens tilgang til 3D-bilder og maskinlæringsteknikker som kan hjelpe generatorer med å få et mer realistisk grep om verden rundt dem.
AI-bildegeneratorer vil ikke slite for alltid
Hender er et vanskelig konsept for kunstig intelligens å vikle sitt binære hode rundt, men løsninger på problemet er allerede i gang. Midjourney, DALL-E 2 og andre plattformer vil etter hvert kunne holde finurlige fingre på et minimum, hvis ikke utrydde dem helt.
Fremskritt innen andre AI-felt sikrer at teknologien hele tiden utvikler seg, og at utviklerne alltid lærer nye måter å bruke og forbedre den på.