Ghidarea editării imaginilor bazate pe instrucțiuni prin modele multimodale de limbi mari

dascaluc

Instrumentele de design vizual și modelele de limba de fantoma au aplicații pe scară largă în industria multimedia. În minune progreselor semnificative din ultimii ani, o înțelegere solidă a acestor instrumente este încă necesară pentru funcționarea lor. Pentru a flecari accesibilitatea și controlul, industria multimedia adoptă din ce în ce mai indelung tehnici de publicare a imaginilor ghidate de cuvinte sau bazate pe instrucțiuni. Aceste tehnici utilizează comenzi în limba caracter în loc de măști regionale tradiționale sau descrieri elaborate, permițând o manevrare mai flexibilă și controlată a imaginii. Cu toate acestea, metodele bazate pe instrucțiuni oferă adeseori instrucțiuni scurte orisicare pot fi greu de arestat și executat pe implinit pentru modelele existente. În surplus, modelele de difuzie, cunoscute pentru capacitatea lor de a a zidi imagini realiste, sunt la puhoi căutare în sectorul de publicare a imaginilor.

Mai indelung, modelele multimodale de limba fali (MLLM) au dovedit performanțe impresionante în sarcinile orisicare implică generarea de răspunsuri conștiente vizuale și înțelegerea transmodală. MLLM Guided Image Editing (MGIE) este un scoala iluminat de MLLM orisicare le evaluează capacitățile și analizează valoare absoluta în orisicare suportă editarea prin cuvinte sau instrucțiuni ghidate. Această abordare implică învățarea de a a plati îndrumări explicite și de a rezulta instrucțiuni expresive. Modelul de publicare MGIE imbratisa informații vizuale și execută editări prin cultivare end-to-end. În aiest marfa, vom a adanci în MGIE, evaluând impactul acestuia peste optimizării globale a imaginii, modificărilor în exprimare Photoshop și editării locale. De invar, vom a convorbi dupa semnificația MGIE în sarcinile de publicare a imaginilor bazate pe instrucțiuni orisicare se bazează pe instrucțiuni expresive. Să începem explorarea noastră.

Modelele de limba fali multimodale și modelele de difuzie sunt două dintre cele mai utilizate cadre AI și ML în actu-alitate, datorită capacităților lor generative remarcabile. Pe de o fatalitate, aveți modele Diffusion, cele mai cunoscute pentru producerea de imagini foarte de realiste și atractive din soroaca de vedeala vizual, în ritm ce, pe de altă fatalitate, aveți modele de limbă fali multimodale, renumite pentru priceperea lor excepțională de a starni o puhoi specie de conținut, inclusiv cuvinte, limbă, exprimare și imagini/videoclipuri.

Modelele de difuzie schimbă hărțile intermodale latente pentru a desfasura o manevrare vizuală orisicare reflectă modificarea legendei obiectivului de aderare și pot a sluji, de invar, o mască ghidată pentru a publica o anumită meleag a imaginii. Dar motivul nodal pentru orisicare modelele Diffusion sunt utilizate pe scară largă pentru aplicații multimedia este că, în loc să se bazeze pe descrieri elaborate sau măști regionale, modelele Diffusion folosesc abordări de publicare bazate pe instrucțiuni orisicare permit utilizatorilor să exprime valoare absoluta de publicare oblu a imaginii folosind instrucțiuni sau comenzi cuvinte. . De-a lungul timpului, modelele lingvistice fali nu au trebuinta de prezentatie, deoarece au dovedit progrese semnificative într-o rand de sarcini lingvistice diverse, inclusiv rezumarea textului, traducerea automată, generarea de cuvinte și răspunsul la întrebări. LLM-urile sunt de habitudine instruite pe o marime puhoi și diversă de date de pregatire, orisicare îi echipează cu creativitate vizuală și cunoștințe, permițându-le să îndeplinească și mai multe sarcini de limba vizual. Bazându-se pe LLM-urile, MLLM-urile sau modelele multimodale de limba fali pot a sluji imaginile ca intrări naturale și pot a plati răspunsuri conștiente vizuale adecvate.

Acestea fiind spuse, deși modelele de pro-pagare și cadrele MLLM sunt utilizate pe scară largă pentru sarcinile de publicare a imaginilor, există unele probleme de calauzire cu instrucțiuni bazate pe cuvinte, orisicare împiedică performanța generală, ducând la dezvoltarea MGIE sau MLLM Guided Image Editing, un unealta nutrit de AI. decor constând dintr-un calapod de difuzie și un calapod MLLM, așa cum este dovedit în imaginea următoare.

În cadrul arhitecturii MGIE, modelul de difuzie este antrenat de la capăt la capăt pentru a desfasura editarea imaginii cu imaginația latentă a scopului ahtiat, în ritm ce cadrul MLLM învață să prezică instrucțiuni expresive precise. Împreună, modelul de difuzie și cadrul MLLM profită de derivația vizuală inerentă, permițându-i să abordeze comenzile umane ambigue, rezultând o publicare realistă a imaginilor, așa cum se demonstrează în imaginea următoare.

Cadrul MGIE se inspiră tare din două abordări existente: Editarea imaginilor pe bază de instrucțiuni și modele de limbă fali Vision.

Editarea imaginilor bazată pe instrucțiuni probabil îmbunătăți în mod caracteristic accesibilitatea și controlabilitatea manipulării vizuale prin respectarea comenzilor umane. Există două cadre principale utilizate pentru editarea imaginilor bazate pe instrucțiuni: cadre GAN și modele de difuzie. GAN sau Generative Adversarial Networks sunt capabile să modifice imagini, dar sunt fie limitate la anumite domenii, fie produc rezultate nerealiste. Pe de altă fatalitate, modelele de difuzie cu pregătire la scară largă pot a regla hărțile de atenție transmodale pentru hărțile globale pentru a a indeplini editarea și transformarea imaginilor. Editarea bazată pe instrucțiuni funcționează prin primirea de comenzi directe ca aderare, adeseori nelimitată la măști regionale și descrieri elaborate. Cu toate acestea, există probabilitatea ca instrucțiunile furnizate să fie fie ambigue, fie să nu fie satisfacator de precise pentru a intiparire instrucțiunile pentru editarea sarcinilor.

Modelele de limba Vision Large sunt renumite pentru capacitățile lor de provocare de cuvinte și generalizare în diverse sarcini și au adeseori o înțelegere robustă a textului și pot turna în prelungire programe executabile sau pseudocod. Această posibilitate a modelelor fali de limba prilejui MLLM-urilor să perceapă imagini și să ofere răspunsuri adecvate utilizând alinierea caracteristicilor vizuale cu reglarea instrucțiunilor, modelele recente adoptând MLLM-uri pentru a starni imagini legate de chat sau textul introdus. Cu toate acestea, ceea ce separă MGIE de MLLM-uri sau VLLM-uri este faptul că, în ritm ce acestea din urmă pot turna imagini distincte de intrările de la nulitate, MGIE valorifică abilitățile MLLM-urilor pentru a îmbunătăți capacitățile de publicare a imaginilor cu instrucțiuni derivate.

MGIE: Arhitectură și Metoda

În mod tradițional, modelele de limba fali au fost folosite pentru sarcinile generative de procesare a limbajului caracter. Dar, de când MLLM-urile au devenit mainstream, LLM-urile au fost împuternicite cu capacitatea de a a plati răspunsuri rezonabile prin perceperea imaginilor. În mod convențional, un calapod de limbă puhoi multimodal este inițializat dintr-un LLM pre-antrenat și conține un codificator vizual și un adaptor pentru a a scoate caracteristicile vizuale și, respectiv, a a arunca caracteristicile vizuale în valoare absoluta de limba. Datorită acestui vrajitorie, cadrul MLLM este avizat să perceapă intrările vizuale, deși rezultatul este încă meschin la cuvinte.

Cadrul MGIE gand își invoca să rezolve această problemă și să faciliteze un MLLM pentru a publica o mira de aderare într-o mira de ieșire pe a se increde instrucțiunilor textuale date. Pentru a a indeplini aiest deala, cadrul MGIE găzduiește un MLLM și se antrenează pentru a obține instrucțiuni cuvinte expresive concise și explicite. În surplus, cadrul MGIE adaugă simboluri de mira speciale în arhitectonie sa pentru a ocupa decalajul dintre fantoma și modalitatea de limba și adoptă capul de publicare pentru transformarea modalităților. Aceste modalități servesc ca imaginație vizuală latentă din Modelul de limba puhoi multimodal și ghidează modelul de difuzie pentru realizarea sarcinilor de publicare. Cadrul MGIE este atunci avizat să efectueze sarcini de percepție vizuală pentru o publicare rezonabilă a imaginii.

Instrucțiuni expresive concise

În mod tradițional, modelele de limba fali multimodale pot a plati răspunsuri vizuale cu percepția sa transmodală datorită reglajului instrucțiunilor și alinierii caracteristicilor. Pentru a publica imagini, cadrul MGIE folosește un expeditiv literal ca limbă principală de aderare cu imaginea și derivă o explicație detaliată pentru ordona de publicare. Cu toate acestea, aceste explicații pot fi adeseori tocmai alungi sau pot a necesita descrieri repetitive orisicare au ca rezolvare intenții greșite interpretate, forțând MGIE să aplice un prescurtat pre-antrenat pentru a obține narațiuni succinte, permițând MLLM să genereze rezultate rezumate. Cadrul tratează îndrumarea concisă, dar explicită, ca pe o instrucțiune expresivă și aplică pierderea de entropie încrucișată pentru a antrena modelul multimodal de limba puhoi folosind impunerea profesorului.

Folosirea unei instrucțiuni expresive oferă o notiune mai concretă în comparație cu instrucțiunea cuvinte, deoarece ocupa decalajul pentru o publicare rezonabilă a imaginii, sporind în surplus eficiența cadrului. În surplus, cadrul MGIE în timpul perioadei de inferență derivă instrucțiuni expresive concise în loc să producă narațiuni alungi și să se bazeze pe rezumate externe. Datorită acestui vrajitorie, cadrul MGIE este avizat să pună mâna pe imaginația vizuală a intențiilor de publicare, dar este încă meschin la modalitatea de limba. Pentru a depăși aiest piedica, modelul MGIE adaugă un fixat număr de jetoane vizuale după instrucțiunea expresivă cu înglobare de cuvinte antrenabile, permițând MLLM să le genereze folosind capul său LM sau Sistem de limba.

Editarea imaginilor cu imaginație latentă

În pasul următor, cadrul MGIE adoptă capul de publicare pentru a modifica instrucțiunile de mira în ghidaj vizual palpabil. Capul de publicare este un calapod de secvență la secvență orisicare ajută la maparea simbolurilor vizuale secvențiale din MLLM la semanticist potential caracteristic ca indreptar de publicare. Pentru a fi mai particular, transformarea peste înglobărilor de cuvinte probabil fi interpretată ca imagine generală în modalitatea vizuală și utilizează o componentă de imaginație vizuală conștientă de instanță pentru intențiile de publicare. În surplus, pentru a a duce editarea imaginilor cu imaginația vizuală, cadrul MGIE încorporează în arhitectonie sa un calapod de difuzie latentă orisicare cuprinde un autoencoder variațional și abordează difuzia dezgomotării în spațiul potential. Scopul nodal al modelului de difuzie latentă este de a starni obiectivul potential din păstrarea intrării latente și de a intiparire ghidul de publicare. Procesul de difuzie adaugă vuiet obiectivului potential pe intervale de ritm regulate, iar nivelul de vuiet crește cu fiece pas de ritm.

Învățarea MGIE

Persoana următoare rezumă algoritmul procesului de învățare al cadrului MGIE gand.

După cum se probabil examina, MLLM învață să obțină instrucțiuni expresive concise folosind pierderea instrucțiunilor. Folosind imaginația latentă din instrucțiunile imaginii de aderare, cadrul transformă modalitatea capului de publicare și ghidează modelul de difuzie latentă pentru a recapitula imaginea rezultată și aplică pierderea de publicare pentru antrenamentul de difuzie. În cele din urmă, cadrul îngheață majoritatea greutăților, rezultând un antrenament end to end eficace din soroaca de vedeala al parametrilor.

MGIE: Rezultate și calcul

Cadrul MGIE folosește setul de date IPr2Pr ca date primare de pre-antrenare și conține prez 1 milion de date filtrate prin CLIP cu instrucțiuni extrase din modelul GPT-3 și un calapod Operativ-to-Operativ pentru a recapitula imaginile. Mai indelung, cadrul MGIE tratează cadrul InsPix2Pix construit pe codificatorul de cuvinte CLIP cu un calapod de difuzie ca dunga de bază pentru sarcinile de publicare a imaginilor bazate pe instrucțiuni. În surplus, modelul MGIE ia în considerare, de invar, un calapod de publicare a imaginilor ghidat de LLM, adoptat pentru instrucțiuni expresive din intrări devreme de instrucțiuni, dar fără percepție vizuală.

Investigatie cantitativa

Următoarea figură rezumă rezultatele editării într-o setare zero-shot, modelele fiind instruite devreme pe setul de date IPr2Pr. Pentru datele GIER și EVR orisicare implică modificări în exprimare Photoshop, instrucțiunile expresive pot dezvălui obiective concrete în loc de comenzi ambigue orisicare permit rezultatelor editării să semene mai comod cu intențiile de publicare.

Deși atât LGIE, cât și MGIE sunt instruiți pe aceleași date ca modelul InsPix2Pix, ele pot a plati explicații detaliate prin învățarea cu modelul de limbă puhoi, dar totuși LGIE este meschin la o singură regim. În surplus, cadrul MGIE probabil a plati o creștere semnificativă a performanței, deoarece are intrare la imagini și probabil a sluji aceste imagini pentru a obține instrucțiuni explicite.

Pentru a a estima performanța sarcinilor de publicare a imaginilor bazate pe instrucțiuni în scopuri specifice, dezvoltatorii ajustează mai multe modele pentru fiece set de date, așa cum este prescurtat în tabelul următor.

După cum se probabil examina, după adaptarea sarcinilor de publicare în exprimare Photoshop pentru EVR și GIER, modelele demonstrează o creștere a performanței. Cu toate acestea, merită remarcat faptul că, deoarece reglarea fină realiza instrucțiunile expresive și mai specifice domeniului, cadrul MGIE este mucenic la o creștere masivă a performanței, deoarece învață și îndrumări legate de mosie, permițând modelului de difuzie să demonstreze scene concrete editate din calapod de limbă puhoi reglat fin, beneficiind atât de modificarea locală, cât și de imbunatatire locală. În surplus, deoarece ghidul vizual este mai insiruit cu obiectivele de publicare vizate, cadrul MGIE oferă rezultate superioare în mod neschimbator în comparație cu LGIE.

Următoarea figură demonstrează scorul CLIP-S în imaginile de aderare sau adevărul de regiune și instrucțiunile expresive. Un scor CLIP mai puhoi indică relevanța instrucțiunilor cu origine de publicare și, după cum se probabil examina, MGIE are un scor CLIP mai puhoi în comparație cu modelul LGIE atât pentru imaginile de aderare, cât și pentru cele de ieșire.

Rezultate calitative

Următoarea mira rezumă desavarsit examen calitativă a cadrului MGIE.

După cum știm, cadrul LGIE este meschin la o singură regim, din aduce căreia are o singură perspectivă bazată pe limba și este predispus să obțină explicații greșite sau irelevante pentru editarea imaginii. Cu toate acestea, cadrul MGIE este multimodal și, cu intrare la imagini, completează sarcinile de publicare și oferă o imaginație vizuală explicită orisicare se aliniază deosebit comod cu scopul.

Gânduri finale

În aiest marfa, am oral dupa MGIE sau MLLM Guided Image Editing, un scoala iluminat de MLLM orisicare își invoca să evalueze modelele de limbă fali multimodale și să analizeze valoare absoluta în orisicare acestea facilitează editarea folosind cuvinte sau instrucțiuni ghidate în ritm ce învață cum să ofere îndrumări explicite prin derivarea de instrucțiuni expresive. concomitent. Modelul de publicare MGIE captează informațiile vizuale și efectuează publicare sau manevrare folosind antrenament de la capăt la capăt. În loc de îndrumări ambigue și scurte, cadrul MGIE turna instrucțiuni vizuale explicite orisicare au ca rezolvare o publicare rezonabilă a imaginii.

(eticheteToTranslate)Modele de publicare a imaginilor AI

Leave a comment