OpenAI Introducerar fotorealistisk Bildgenerering i GPT-4o

OpenAI har presenterat en ny AI-driven bildgenereringsfunktion inom ChatGPT, som utnyttjar sin uppgraderade GPT-4o-modell för att göra det möjligt för användare att skapa och redigera bilder direkt i chattgränssnittet.

Env viktig funktion är korrekt textåtergivning, stöd för komplexa prompter som involverar flera objekt, och möjligheten att generera bilder baserat på uppladdade referenser.

Denna innovativa modell överträffar konkurrenterna genom att hantera komplexa scener med 10-20 objekt, vilket avsevärt överstiger den typiska gränsen på 5-8.

OpenAI erkänner begränsningar i modellen, inklusive utmaningar med bildbeskärning, textrendering i icke-latinska skrifter och felaktigheter med komplexa bilder.

OpenAI har precis släppt spännande nyheter om GPT-4o deras senaste AI-modell som nu har integrerad kapacitet för bildgenerering. Med denna uppdatering kan användare skapa mer realistiska bilder direkt från textbeskrivningar. Det här är en stor uppgradering jämfört med den tidigare DALL-E-modellen, och det öppnar upp nya möjligheter för allt från design och marknadsföring till visuella hjälpmedel.

Vad gör den nya bildgenereringen unik?

Ett av de mest imponerande inslagen med GPT-4o är dess fotorealistiska output. Modellen klarar av att återge detaljer på ett sätt som tidigare varit svårt för AI-bildgeneratorer. Exempelvis kan den hantera upp till 20 olika objekt i en och samma bild, och det kan dessutom skapa bilder i flera stilar samtidigt. Detta är särskilt användbart för kreatörer som behöver visuellt material som är anpassat för specifika sammanhang, såsom reklam eller grafisk design.

**Man kan editera bilden genom att markera ett område och be ChatGPT om vad man önskar**

Dessutom har OpenAI introducerat kapaciteten att generera bilder med läsbar text inbakad i grafik, något som var en betydande utmaning för tidigare system. Nu är det till exempel möjligt att skapa instruktionsdiagram, receptkort eller till och med serietidningar med pratbubblor, där texten är fullt både läsbar och korrekt placerad.

Bild från OpenAI – korrekt textåtergivning vid bildgenerering

Nya sätt att använda AI inom bildgenerering

En annan spännande funktion är möjligheten att ladda upp bilder för att modifiera dem. GPT-4o använder då sina multimodala förmågor – att värdera text och bild i samspel – för att förbättra eller inspireras av redan befintligt material. Detta gör skapandeprocessen ännu mer kontrollerbar och dynamisk, samtidigt som det hjälper användare att iterera sina idéer genom konversation.

Alla bilder som genereras inkluderar en C2PA-metadata, vilket markerar dem som skapade av artificiell intelligens. Detta är ett viktigt steg mot transparens och etisk användning av AI-genererat innehåll.

Hur påverkar det användarna?

OpenAI har rullat ut den nya bildgenereringen till både betalande och gratisanvändare av ChatGPT. För Plus och Pro-prenumeranter erbjuds dessutom högre kapacitet, vilket gör det möjligt att skapa ännu fler bilder snabbt. Karakteristiskt för GPT-4o är hur användarvänligt det är – beskriv vad du behöver (med detaljer som färger och format), och modellen genererar resultatet på sekunder.

introducing-4o-image-generation

Get latest posts delivered right to your inbox

#OpenAI #Introducerar #fotorealistisk #Bildgenerering #GPT4o