🖌️ Nu fungerar AI-bilder som de borde

AI-genererade bilder har tagit ett stort kliv framåt och tidigare problem är nu nästan helt borta.

Mathias Sundin 15.apr.20254 min read

Dela artikeln

Det här mejlet innehåller flera bilder, så om det kapas mitt i rekommenderas läsning direkt i webbläsaren. Klicka här.

AI-genererade bilder har blivit mycket bättre senaste tre åren. Från hyfsade men lite styltiga och luddiga, till fullt fotorealistiska och väldigt skarpa. På vägen har problem med att producera rätt antal fingrar och konstiga ansiktsuttryck lösts.

Text i bilderna funkade först inte alls, men har gradvis blivit bättre, dock utan att fungera helt.

Nu har OpenAI släppt en ny bildgenerator som är ett stort kliv framåt.

Tidigare när du skrev i ChatGPT att du vill ha en bild av något så gjorde den en textinstruktion som den skickade till ett separat bildverktyg, DALL-E, som gjorde bilden. I den nya versionen gör språkmodellen i ChatGPT själv bilden enligt samma metod som den producerar text.

Det ger en helt ny nivå av exakthet och text funkar nästan helt perfekt nu (den har lite svårt med å, ä, ö ibland.)

Tidigare innebar bildskapande att man ofta fick generera om bilderna flera gånger, för att hitta en variant man blev nöjd med. Inte sällan försvann något ur den nya bilden som man gillade, för den genererade bilden helt på nytt varje gång. Det problemet är borta nu. Nu kan man med helt vanlig svenska göra exakta ändringar i bilden.

🤯

En kompis skickade en bild på hur hans spisområde såg ut efter att han renoverat det.

Snyggt men lite kalt, tyckte jag och laddade upp bilden till ChatGPT tillsammans med ett foto på honom. Jag bad ChatGPT att lägga till bilden som en målning på vänstra väggen, addera lite köksutrustning och sätta upp en tavla med Carpe Diem på högra väggen.

Eller så funderar du på hur en viss tapet skulle se ut i sovrummet.

Ladda upp båda bilderna och be ChatGPT att sätta upp tapeten i rummet. Och vips!

Men kanske vill du se hur det ser ut när dörren är stängd och tv:n är påslagen. Voilà!

Kolla tapeten bakom dörren. Det hade ju inte varit konstigt om den delen hade blivit vit när dörren stängdes, men icke.

Sinnes! Eller hur?

Så här kan man hålla på. Annan tapet, blått överkast, ta bort teven och sätt upp en tavla – och så vidare.

Som sagt är den numera riktigt bra på text också.

Prompt hämtad från OpenAI, jag har bytt ut texten.

Ett annat problem har varit att man inte kan använda samma karaktär eller pryl i flera bilder, då de hela tiden såg rätt olika ut. Det problemet är nästan helt borta nu.

Vi tar denna skyltdocka.

Och sätter på honom en Warp-tshirt, genom att ladda upp en bild på en sådan t-shirt.

Den missar att texten ska vara ljusblå, inte vit, och säger till ChatGPT att ändra, samtidigt som vi instruerar den att sätta på honom jeans.

Nu kan vi placera honom i olika miljöer. Som på Warp News redaktion.

Eller varför inte i djungeln?

Skyltdockan är inte exakt likadan i varje bild, men rätt nära.

Det som skapat mest kontrovers är att man nu kan härma stilar. Här blir det gråzon. Att härma en stil tycker jag är okej, men att kopiera en stil är mer tveksamt. Frågan är var gränsen går?

Här är Sveriges justitieminister, Gunnar Strömmer, i olika varianter.

Foto t.v. Ninni Andersson/Government Offices of Sweden

Så gör du

Hur gör man allt detta, undrar du kanske? Det är enkelt. Logga in på vanliga ChatGPT och instruera den med ditt vanliga språk. Det krävs inga särskilda kommandon, beskriv bara med vanlig svenska (eller annat språk) hur du vill att bilden ska se ut. Vill du ha något väldigt specifikt behöver din beskrivning vara detaljerad, annars funkar det bra att vara kortfattad. Vill du att den ska utgå eller använda bilder så laddar du upp dessa samtidigt som du skriver din instruktion.

Det är inte perfekt ännu, men inte långt ifrån. De kvarvarande skavankerna kommer snart vara borta. Nästa steg är att kunna göra samma sak med video.

Jag rekommenderar att scrolla igenom flödet på Sora (som är bildvarianten av ChatGPT). Folks kreativitet är otrolig! Är du inloggad så kan du se textinstruktionerna som skapade bilden eller videon.