„ChatGPT Images 1.5“: tai didelis „OpenAI“ šuolis vaizdų srityje

  • „ChatGPT Images“ pristato „GPT Image 1.5“ modelį, kuris yra iki keturių kartų greitesnis ir geriau seka instrukcijas.
  • Naujasis įrankis leidžia tiksliai redaguoti įkeltas nuotraukas, išlaikant apšvietimą, kompoziciją ir veido bruožus.
  • Pastebimas teksto generavimo paveikslėliuose ir sudėtingose ​​scenose su daugybe veidų ar smulkių detalių patobulinimas.
  • „OpenAI“ paleidžia savo vaizdų skyrių „ChatGPT“, kuris dabar prieinamas daugumai vartotojų per API.

ChatGPT vaizdai

Dirbtinio intelekto valdomas vaizdų generavimas tapo vienu ryškiausių technologijų gigantų lenktynių pavyzdžių. „OpenAI“ nusprendė žengti žingsnį su išsamiu atnaujinimu ChatGPT vaizdai, integruotą vizualinio kūrimo sistemą, kontekste, kuriame tokie modeliai kaip „Google“ „Nano Banana Pro“ dominavo daugelyje pokalbių.

Šiuo paleidimu bendrovė, kurianti „ChatGPT“, nori, kad jos įrankis būtų ne tik paprastas pokalbių priedas, bet ir visavertė funkcija. tikra integruota kūrybinė studija, greitesnis, tikslesnis ir su sąsaja, sukurta nuo nulio dirbti su vaizdais, o ne tik tekstu.

Naujasis GPT Image 1.5 modelis: greitis ir tikslumas – jo skiriamieji bruožai

Atnaujinimo esmė yra GPT paveikslėlis 1.5„OpenAI“ naujasis pavyzdinis vaizdų modelis. Bendrovė teigia, kad gali generuoti vaizdinį turinį iki keturis kartus greičiau nei ankstesnė versija, o tai praktiškai ypač pastebima piko valandomis ir mobiliuosiuose įrenginiuose, kur anksčiau nebuvo neįprasta, kad procesas nutrūktų arba užtruktų amžinybę keičiant programas.

Be našumo, pagrindinis patobulinimas yra instrukcijų sekimas. Sistema tiksliau interpretuoja instrukcijas. sudėtingos užduotys ir tikslūs erdviniai santykiaikad tokie prašymai kaip pakeisti tik vieną objektą, pakoreguoti apšvietimą ar modifikuoti žmogaus drabužius nebesukeltų netikėtų pokyčių likusioje scenos dalyje.

„OpenAI“ paaiškina, kad „GPT Image 1.5“ buvo apmokytas išlaikyti svarbiausius vaizdo elementus pastovius, pvz. veido tapatybė, bendra kompozicija arba spalvų paletėnet ir po kelių grandininio redagavimo etapų. Šis aspektas ypač aktualus profesionaliam naudojimui, kai vizualinis nuoseklumas yra ne užgaida, o reikalavimas.

Taškinis ir grandininis redagavimas: keiskite tik tai, kas svarbu

Viena iš sričių, kurioje ankstesni modeliai nepasiteisino, buvo tikslinis konkrečių sričių redagavimasPakeitus skrybėlę, pakoregavus apšvietimą ar pridėjus elementą prie fono, visa scena gali būti permiksuota. Naujoji „ChatGPT Images“ programa tiesiogiai išsprendžia šią problemą.

Modelis yra pajėgus pridėti, pašalinti, sujungti, sumaišyti ir transponuoti elementus tame pačiame paveikslėlyje, išlaikant visus kitus svarbius komponentus stabilius. Praktiškai tai reiškia galimybę prašyti tokių veiksmų, kaip: marškinių spalvos keitimas, kepurės modifikavimas, kelio ženklo koregavimas arba sunkvežimio pavertimas gaisrine mašina, neiškreipiant likusios aplinkos.

Taip pat buvo sustiprintas elgesys telefono skambučių metu grandininiai leidimaiIki šiol trečias ar ketvirtas pakeitimas paprastai priversdavo modelį visiškai „perkurti“ vaizdą. Naudojant „GPT Image 1.5“, įrankis daug patikimiau išsaugo stilių, pozą ir sceną, todėl galite iteruoti tuo pačiu pagrindu, nereikėdami pradėti nuo nulio su kiekvienu pakeitimu.

Kūrybinės transformacijos: nuo asmenukės iki filmo plakato

Be techninio tikslumo, „OpenAI“ perkelia „ChatGPT Images“ į išskirtinai kūrybišką teritoriją. Sistema leidžia vartotojams įkelti savo nuotrauką ir, atlikus gana paprastą užklausą, gauti vaizdą per kelias sekundes. patikimos transformuotos versijosNuo 90-ųjų reklamos iki scenos Taimso aikštėje žiemos viduryje ar Japonijos miesto su kiberpanko estetika.

Modelis taip pat gali būti atkuriamas specifiniai meno stiliai, pavyzdžiui, klasikiniai filmų plakatai, anime stiliaus iliustracijos ar istoriškai atrodančios kompozicijos, atsižvelgiant į pagrindinius originalaus asmens bruožus. Idėja yra ta, kad vartotojas gali „pamatyti“ save labai skirtinguose kontekstuose, neprarasdamas jausmo, kad tai tas pats asmuo.

Šis požiūris primena tai, ką jau siūlė tokie modeliai kaip „Nano Banana“, tačiau „OpenAI“ bando išsiskirti statydamas ant labiau kontroliuojamos konceptualios transformacijoskur sistema išlaiko bazinės nuotraukos esmę, keisdama drabužius, aplinką, apšvietimą ar epochą, išlaikydama didelę vizualinę darną.

„ChatGPT Images“ atsisveikina su gelsvu stiliumi ir patobulina sudėtingas scenas

Ilgą laiką buvo gana lengva nustatyti, ar vaizdas buvo sukurtas naudojant ankstyvąsias „ChatGPT“ versijas: jos vyravo šilti tonai, kreminė apdaila ir tam tikras geltonas atspalvis ...kuris atskleidė jo dirbtinę kilmę. Vidiniai palyginimai, kuriuos parodė „OpenAI“ ir nepriklausomi testai, palyginti su alternatyvomis, tokiomis kaip Bing vaizdo kūrėjasAtrodo, kad tas bruožas buvo paliktas nuošalyje.

Naujasis modelis siūlo neutralesnis ir įvairesnis spalvų spektrasDėl to vaizdai labiau primena įprastas nuotraukas, nebent vartotojas raginime aiškiai nurodo kitaip. Tai padeda vaizdams atrodyti mažiau „firminiams“ ir yra naudingesni kontekstuose, kur pageidaujamas realizmas arba integracija su esama fotografine medžiaga.

Taip pat buvo patobulintas atstovavimas scenos su daugybe smulkių elementųpavyzdžiui, minios ar detalių kupinas fonas. Didelėse grupėse veidai dabar labiau skiriasi vienas nuo kito, pozos ir išraiškos yra natūralesnės, o tipiniai trūkumai, tokie kaip rankų atspaudai, maži brūkštelėjimai ar keisti pasikartojimai, yra sumažinti.

„ChatGPT Images“ leidžia įterpti tekstą į vaizdus: įterpti plakatus, infografikus ir maketus

Įskaitomo teksto generavimas paveikslėlyje istoriškai buvo vienas iš generatyvinio dirbtinio intelekto Achilo kulnų. „OpenAI“ teigia, kad „GPT Image 1.5“ žengia reikšmingą žingsnį į priekį šioje srityje, pateikdama... daug nuoseklesnis tipografinis atvaizdavimas nei ankstesnėse versijose.

Modelis gali susidoroti tankūs, maži teksto blokaiTai atveria duris kurti plakatus, infografikus, laikraščių puslapių maketus ar dizainus su lentelėmis ir „markdown“ tipo formatais, kurių skaitomumo lygis, nors ir nėra tobulas, yra artimesnis tam, ką galima naudoti be intensyvaus retušavimo.

Tiems, kurie dirba rinkodaros, švietimo, elektroninės prekybos ar skaitmeninio turinio srityse, šis patobulinimas reiškia laiko, praleidžiamo tam, sutrumpinimą. ištaisyti netaisyklingas raides arba nepilnus žodžiusTais atvejais, kai reikia kurti vizualinę medžiagą su aiškiomis, publikavimui paruoštomis žinutėmis, tai, kad pats modelis generuoja pakankamai aiškų tekstą, tampa skiriamuoju veiksniu.

Nauja naudotojo patirtis: speciali vaizdų skiltis „ChatGPT“

Atnaujinimas neapsiriboja modeliu; jis taip pat paveikia jo naudojimą. „OpenAI“ pridėjo naują funkciją „ChatGPT“ šoninėje juostoje. specialus skyrius, vadinamas „Vaizdai“Tai taikoma tiek mobiliajai programėlei, tiek žiniatinklio versijai. Tikslas – atskirti vizualinę patirtį nuo tradicinio pokalbio ir palengvinti naršymą tiems, kurie nenori vargti su sudėtingais raginimais.

Šioje naujoje erdvėje vartotojas randa iš anksto nustatyti stiliai, tendencijų pasiūlymai ir šablonai Dažnai atliekamoms užduotims, tokioms kaip sveikinimų kūrimas, senų nuotraukų restauravimas, skirtingų meninių stilių perjungimas ar to paties produkto variantų generavimas, šis metodas sumažina įėjimo barjerą žmonėms, neturintiems techninės patirties.

Kitas praktinis aspektas yra tas, kad vaizdų skiltis veikia kaip centralizuota saugykla visų naudotojo vizualinių kūrinių. Iš ten lengviau peržiūrėti ankstesnes versijas, pakartoti stilių su nauju turiniu arba tęsti jau sugeneruoto vaizdo redagavimą, o tai ypač naudinga nuolatiniuose darbo eigose.

Nuo akį traukiančio aksesuaro iki vizualaus darbo įrankio

Pati „OpenAI“ pripažįsta, kad iki šiol vaizdų generavimas „ChatGPT“ sistemoje veikė labiau kaip ypač akį traukiantis tekstams skirtoje sąsajoje kuris tarnauja kaip tvirta vizualinė darbo aplinka. Šiuo atnaujinimu įmonė siekia žengti kokybinį šuolį: pereiti nuo „bandomųjų“ vaizdų socialinei žiniasklaidai prie įrankio, kurį galima naudoti realiuose procesuose.

Nuoseklumo ir iteracijos pagerėjimas turi tiesioginį poveikį tokiems sektoriams kaip dizainas, rinkodara, e. prekyba ar prekės ženklo kūrimasĮmonės, kurioms reikia pritaikyti tą pačią kūrybinę koncepciją keliems formatams, išbandyti produkto variantus arba išlaikyti logotipų ir įmonės elementų nuoseklumą šimtuose vienetų, turi aiškų pranašumą tokio tipo kontrolėje.

Europoje veikiančios kūrybinės platformos, tokios kaip žiniatinklio redaktoriai ir debesijos pagrindu veikiantys dizaino įrankiaiJie jau integruoja šiuos modelius į savo darbo eigą. Šioje srityje „OpenAI“ įsipareigojimas kurti išsamesnę vizualinę aplinką gali būti tinkamas tiek MVĮ, norinčioms paspartinti grafinės medžiagos gamybą, tiek didelių korporacijų vidinės komunikacijos komandoms.

„ChatGPT“ vaizdų prieinamumas vartotojams, įmonėms ir kūrėjams

„OpenAI“ pradėjo diegti naujus „ChatGPT Images“ dauguma platformos naudotojų, įskaitant tuos, kurie turi nemokamas paskyrasDaugelis vartotojų, atidarę programėlę, jau mato pranešimą, kviečiantį išbandyti vaizdo funkciją, o šoniniame meniu atsirado naujas specialus skirtukas, skirtas centralizuotam jos naudojimui.

Verslo sektoriuje bendrovė patvirtino, kad išplėstinė prieiga verslo ir įmonių paskyroms bus diegiama palaipsniui, daugiausia dėmesio skiriant integracijoms su... profesionalūs darbo eigosEuropos organizacijoms, jau naudojančioms „ChatGPT“ vidinėms užduotims, tai reiškia galimybę išplėsti jo naudojimą nuo teksto iki grafinės medžiagos, sugeneruotos naudojant tuos pačius prisijungimo duomenis.

Tuo pačiu metu GPT Image 1.5 yra prieinamas per OpenAI APITai leidžia kūrėjams integruoti vaizdų generavimo ir redagavimo galimybes į savo programas. Bendrovė teigia, kad vaizdų įvesties ir išvesties kaina yra maždaug 20 % mažesnė nei ankstesnio modelio, o tai yra didelis pranašumas dideliems projektams ar paslaugoms, veikiančioms su ribota pelno marža.

Konkurencija su „Nano Banana Pro“ ir kitais vizualiniais modeliais

„OpenAI“ žingsnis žengtas didelio konkurencinio spaudimo metu. „Google“ spaudė Nano Banana Pro kaip vienas iš pirmaujančių vizualinių generatyvinių modelių, integruotas į savo kūrybinių įrankių ekosistemą ir susijęs su jo Dvynių šeima, o tai paskatino jo naudojimą visame pasaulyje.

Dėl šios situacijos kai kuriose konkuruojančiose paslaugose atsirado [neaišku]. griežti apribojimai nemokamiems vartotojamsPavyzdžiui, sumažinant per dieną sugeneruojamų vaizdų skaičių, iš dalies dėl didelės paklausos. Priešingai, „OpenAI“, regis, lažinasi dėl platesnio pasiekiamumo, didesnio greičio ir rafinuotesnės redagavimo aplinkos derinio, kad išlaikytų ir pritrauktų vartotojus.

Tuo tarpu kiti žaidėjai, pavyzdžiui, „xAI“ su savo pokalbių robotu „Grok“ arba įvairūs vaizdų specialistai, siekia vizualinė generacija tampa pagrindiniu frontu kovoje dėl vartotojų dėmesio. „OpenAI“ strategija apima „ChatGPT“ konsolidavimą kaip „viskas viename“ programėlę, kurioje paieška, balsas, tekstas, vaizdai ir vaizdo įrašai yra vienoje įėjimo vietoje.

Su šiais naujais „ChatGPT Images“ „OpenAI“ žengia svarbų žingsnį link brandesnis vaizdinis įrankisGreitesnis ir tikslesnis modelis, diferencijuota sąsaja ir redagavimo galimybės, aiškiai pritaikytos realiam darbui tiek asmeniniame, tiek profesiniame kontekste. Dar neaišku, kiek šie patobulinimai bus integruoti į kasdienį vartotojų ir įmonių gyvenimą Ispanijoje ir Europoje, tačiau žinia aiški: vaizdas nebėra tik smagus pokalbių priedas, bet tapo pagrindine „ChatGPT“ ekosistemos dalimi.

„ChatGPT“ vaizdų kūrimas
Susijęs straipsnis:
„ChatGPT“ dabar generuoja vaizdus su GPT-4o: viskas, ką reikia žinoti