sâmbătă, aprilie 20, 2024

MoE-LLaVA: Amestec de experți pentru modele mari de limbă vizuală

Acțiune

Progresele recente în modelele LVLM (large Vision Language Models) au arătat că scalarea acestor cadre crește nuantat performanța într-o diversitate de sarcini din aval. LVLM, inclusiv MiniGPT, LLaMA și altele, au dobândit capacități remarcabile prin încorporarea straturilor de proiecție vizuală și a unui codificator de mira în maimarie lor. Prin implementarea acestor componente, LVLM-urile îmbunătățesc capacitățile de percepție vizuală ale modelelor de limba holba (LLM). Performanța cumva fi îmbunătățită în prelungire prin creșterea dimensiunii modelului și a numărului de parametri, bunaoara și prin extinderea scalei setului de date.

Modele bunaoara InternVL și-au crescut codificatorul de mira la asupra 6 miliarde de parametri, în curs ce altele au crescut backend-ul LVLM-urilor la 13 miliarde de parametri, obținând performanțe superioare pentru o gamă largă de sarcini. IDEFICS a antrenat un LVLM cu asupra 80 de miliarde de parametri. Aceste metode de scalare au egalat sau au depășit performanța LLM-urilor pregătite în preparator pe asupra 34, 70 sau limpede 100 de miliarde de parametri. Cu toate acestea, scalarea are un neajuns: crește nuantat costurile de initiere și inferență. Iest treaba se datorează faptului că necesită ca toți parametrii să fie activi pentru oricine token în socoteala, ceea ce domni la a obliga de socoteala holba și, în consecință, la costuri mai holba.

Iest paragraf discută MoE-LLaVA, o arhitectură LVLM rară bazată pe Mixture of Experts (MoE) fiecine utilizează o strategie eficientă de initiere, MoE-Tuning, pentru LVLM. MoE-Tuning abordează în mod innoitor degradarea performanței în învățarea multi-modală, rezultând un sistem cu un număr gros de parametri, dar costuri consistente de initiere și inferență. Arhitectonie MoE-LLaVA este concepută pentru a a inviora deodata experții de top-k în timpul implementării, menținându-i pe restul pasiv.

Ne propunem să explorăm în amanunt cadrul MoE-LLaVA, examinându-i mecanismul, metodologia, maimarie și valoare absoluta în fiecine se compară cu cadrele principale de provocare de imagini și terminal. Să pătrundem în detalii.

Pe lângă utilizarea straturilor de proiecție vizuală și a codificatoarelor de mira, modelele Large Vision Language măresc și dimensiunea modelului prin creșterea numărului de parametri pentru a îmbunătăți performanța modelului. Câteva exemple notabile de modele de limba pentru vederi holba fiecine au urmat această abordare pentru a-și îmbunătăți performanța sunt MiniGPT-4, InternGPT, InternVL și altele. În aplicațiile din lumea reală, scalarea unui sistem de limbă gros sau a unui sistem de limba de chip gros cu date de initiere de înaltă insusire devine frecvent o cerinta pentru a îmbunătăți performanța modelului. Deși scalarea dimensiunii unui sistem îmbunătățește performanța, crește, de asemanator, costurile de socoteala ale antrenării și implementării modelului și crește și mai indelung complicațiile și eficiența implementării modelului pe dispozitive paralele odata. Un prilej fundamental din spatele costurilor crescute de initiere și inferență, împreună cu cerințele de socoteala, este că oricine insemn din suport necesită socoteala cu oricine parametru din modelul consacrat sub numele de sistem consistent.

Pe de altă menire, MoE rar sau Mixture of Cunoscator Models au dovedit o scalare eficientă a cadrelor prin procesarea datelor cu ajutorul parametrilor activați fixați, o abordare fiecine a fost adoptată pe scară largă în domeniul procesării limbajului simplitate. Cu toate acestea, folosirea Mixture of Cunoscator pentru a antrena în mod neocolit modelele de limba pentru vederi holba rare este o sfruntare, deoarece conversia LLM-urilor în LVLM și sparsificarea modelului domni odata la o ruinare semnificativă a performanței. Pentru a introduce Mixture of Models pentru a scara LLM-uri și LVLM-uri, este esențial să inițializați mai întâi LVLM pentru sparsificare. Pentru a a implini aiest treaba, cadrul MoE-LLaVA a trece MoE-Tuning, o strategie simplă, dar eficientă de antrenament în trei faze.

CITIT  Câștigă 1.000 USD garantat pe lună din Magazinul ChatGPT

După cum se arată în imagine de mai sus, procesul MoE-Tuning antrenează mai întâi un MLP sau un Perceptron multistrat fiecine adaptează simbolurile vizuale la un sistem de limba gros în rata de asigurare etapă. Cadrul antrenează atunci toți parametrii LLM pentru a pre-împuternici Modelul Exprimare Vision Large cu o cubaj generală de înțelegere multimodală. În cele din urmă, în a treia etapă, cadrul a copia FFN sau rețeaua Feed Forward ca ponderi de inițializare pentru experți și antrenează conj straturile Mixture of Cunoscator. În obstesc, procesul de initiere ajută la tranziția treptată a modelului rar de la o inițializare LVLM la un melanj rar de modele cunoscator.

Pe măsură ce procesul de initiere este plin, haideți să aruncăm puțină lumină catre MoE-LLaVA, o bază de referință pentru modelele de limba pentru vederi holba cu modele mixte de experți, fiecine încorporează routere fiecine pot fi învățate și modele MoE. În esență, modelul MoE-LLaVA constă din mai multe căi rare, iar cadrul utilizează aceste căi pentru a inainta oricine token către diferiți experți prin routerul fiecine cumva fi învățat. Jetoanele sunt atunci procesate ansamblu de către experții activați, păstrând în același curs tăcere căile inactive. Cadrul stivuiește atunci straturile de codificare Mixture of Cunoscator în mod iterativ pentru a darui o cale ferata rară către un LVLM mai gros și mai solid.

Datorită abordării implementate de cadrul MoE-LLaVA, este competent să depășească modelele cu un număr podobnic de parametri activați și să le depășească cu o diferență gros față de benchmark-ul de halucinație a obiectelor POPE, în invidie faptului că are conj 2,2 miliarde de parametri. În catifea, cadrul MoE-LLaVA cu 2,2 miliarde de parametri, este competent să atingă performanțe comparabile cu cadrul InternVL-Chat-19B, cu un număr de semen 8 ori mai gros de parametri activați.

Mai indelung, modelele de limba holba iele, cu capacități iele de generalizare și de urmărire a instrucțiunilor, au fost implementate în modelele de limba pentru vederi holba. LLM-urile timpurii, cum ar fi BLIP, au incifrat semnalele vizuale într-o secvență de jetoane vizuale, permițându-le să adapteze cu reusire vederea la LLM-uri folosind mai multe straturi de proiecție. În același curs, lucrările recente se concentrează pe îmbunătățirea performanței modelului prin implementarea unor metode bunaoara extinderea setului de date de potrivire a instrucțiunilor, creșterea rezoluției imaginii, optimizarea strategiilor de antrenament, alinierea intrării, îmbunătățirea codificatoarelor de mira și multe altele. Aceste abordări au sustinut la împuternicirea LVLM-urilor cu capabilități iele de înțelegere vizuală prin extinderea instrucțiunilor vizuale de potrivire fină a setului de date și a scalelor modelului. În catifea, unele LVLM posedă și capacități de înțelegere a imaginii cu granulație fină, cum ar fi înțelegerea regiunilor și a mai multor regiuni, împreună cu capacități de împământare în funcție de pixeli. Cu toate acestea, costul de socoteala însoțit de extinderea datelor și modelelor vizuale dense este frecvent nuantat suflecat, ceea ce îl realiza ostenitor de guvernare. Pe de altă menire, cadrul MoE-LLaVA își preconiza să facă cercetarea LVLM mai accesibilă prin valorificarea capacităților modelelor MoE.

CITIT  AI nedetectabil vs. Instrumentul de parafrazare de la AcademicHelp: care ți se potrivește mai bine

MoE-LLaVA: Metodă și Arhitectură

În esență, cadrul MoE-LLaVA constă dintr-un razor de proiecție vizuală (Multilayer Perceptron), un codificator de fantoma, blocuri MoE, mai multe blocuri LLM stivuite și un razor de încorporare a cuvintelor.

Arhitectură

Următorul izvod rezumă configurațiile detaliate ale cadrului MoE-LLaVA.

Pentru o anumită mira RGB, codificatorul vizual procesează imaginile pentru a obține o secvență de simboluri vizuale cu un razor de proiecție vizuală fiecine mapează secvența de simboluri vizuale la imaginile de alee. Intrările de lucrare sunt procesate de stratul de încorporare a cuvintelor fiecine atunci îl proiectează pentru a obține jetoanele de secvență. În același curs, cadrul MoE-LLaVA concatenează textul și simbolurile vizuale împreună și le a-i duce LLM. Cu toate acestea, cadrul antrenează conj stratul de proiecție vizuală cu modelul de limba gros constând din FFN sau rețele neuronale Feedforward și straturi de atenție cu mai multe capital. În cele din urmă, cadrul aplică conexiuni reziduale și normalizarea stratului fiecărui blocada.

Continuând, cadrul MoE-LLaVA a copia FFN sau rețelele neuronale Feedforward din a doua etapă pentru a a prezenta un totalitate de experți ca pas de inițializare. Routerul fiind un razor liniar, a pohibi probabilitatea ca oricine fisa să fie atribuit fiecărui cunoscator. Oricare fisa este procesat de experții top-k cu probabilitatea maximă și calculează seama ponderată pe structura economica rezultatului softmax al probabilităților.

MoE-Tuning

MoE-Tuning este o strategie de antrenament în trei faze simplă, dar eficientă, fiecine antrenează mai întâi un MLP sau un Perceptron multistrat fiecine adaptează indicatoarele vizuale la un sistem de limba gros în rata de asigurare etapă. Cadrul antrenează atunci toți parametrii LLM pentru a pre-împuternici Modelul Exprimare Vision Large cu o cubaj generală de înțelegere multimodală. În cele din urmă, în a treia etapă, cadrul a copia FFN sau rețeaua Feed Forward ca ponderi de inițializare pentru experți și antrenează conj straturile Mixture of Cunoscator.

Stadiu 1

În rata de asigurare etapă, obiectivul nodal este de a ajusta jetoanele de mira la modelul de limba gros fiecine a cuteza LLM să înțeleagă instanțele din mira. Cadrul MoE-LLaVA folosește un perceptron multistrat pentru a a arunca jetoanele de mira în domeniul de alee al modelului de limba gros și tratează patch-urile de mira ca jetoane pseudo-text. În această etapă, cadrul MoE-LLaVA antrenează LLM să a zugravi imaginile și nu aplică straturile MoE la LLM în această etapă.

Stadiu 2

În a doua etapă, MoE-LLaVA încearcă să îmbunătățească capacitățile și controlabilitatea cadrului prin reglarea modelului cu date de instrucțiuni multimodale. Cadrul MoE-LLaVA realizează aiest treaba prin ajustarea LLM pentru a a se face un LVLM cu capabilități de înțelegere multimodală. Cadrul folosește instrucțiuni mai complexe, inclusiv recunoașterea textului și sarcini de raționament fundamentat al imaginii fiecine necesită ca modelul să posede capacități multimodale mai iele. În mod tradițional, procesul de pregătire pentru modele dense este respectat a fi finalizat prin aiest pas. Cu toate acestea, cadrul MoE-LLaVA a întâmpinat provocări în transformarea LLM într-un LVLM odata cu sparsificarea LVLM. Pentru a anihila această sfruntare, cadrul utilizează ponderile din etapă ca inițializare pentru faza următoare în încercarea de a a linisti dificultatea de învățare a modelului rar.

Stadiu 3

În al treilea pas, modelul a copia rețeaua neuronală feedforward de mai multe ori pentru a inițializa experții ca o procedură de inițializare. Cadrul alimentează atunci jetoanele de lucrare și mira în amestecul de straturi de experți, după fiecine routerul calculează greutățile de compatibilitate dintre experți și oricine jetoane. Oricare token este atunci procesat de experții de top-k, iar rezultatul agregat este infranat prin însumare ponderată pe structura economica greutăților routerului. Odată ce experții de top-k sunt activați, modelul îi închide pe experții rămași, o abordare fiecine echipează cadrul MoE-LLaVA cu căi rare imensitate posibile, echipând asemenea modelul cu o gamă largă de capabilități.

CITIT  Viziunea de un trilion de dolari: Inițiativa globală a cipurilor a lui Sam Altman

MoE-LLaVA: Rezultate și experimente

Cadrul MoE-LLaVA adoptă CLIP-Large ca codificator de fantoma cu Perceptronul multistrat dimensiune din două straturi cu un razor de dinamizare GELU fiecine le separă pe cele două. În mod implicit, cadrul folosește o înlocuire alternativă a rețelelor neuronale feedforward cu amestecul de straturi cunoscator, ceea ce înseamnă că amestecul de straturi cunoscator a apuca 50% din numărul numar de straturi. Următorul izvod conține diferitele seturi de date, împreună cu dimensiunea eșantionului lor utilizat pentru antrenarea și evaluarea cadrului MoE-LLaVA.

Răspuns la întrebarea imaginii zero-shot

Următoarea figură demonstrează că MoE-LLaVA este un sistem rar cu un router software bazat pe LVLM. Cadrul este evaluat pe 5 benchmark-uri de răspuns la întrebări de mira și, după cum se cumva a retine, cadrul MoE-LLaVA demonstrează capacități remarcabile de înțelegere a imaginii și oferă performanțe comparabile cu cadrul LLaVA 1.5 de ultimă generație pe cinci benchmark-uri diferite.

Evaluarea halucinației obiectelor

Pentru a a socoti halucinația obiectului, cadrul MoE-LLaVA adoptă canal de socotire POPE, o metodă de ascultare bazată pe sondaje, iar rezultatele sunt demonstrate în tabelul următor. După cum se cumva a retine, din toate cadrele, MoE-LLaVA oferă cele mai iele rezultate, indicând capacitatea cadrului de a starni obiecte în concordanță cu imaginea de alee. În catifea, este de remarcat faptul că cadrul MoE-LLaVA echilibrează tare raportul da, indicând capacitatea modelului rar de a darui conexiune inversa drept pentru întrebarea dată.

Următoarea mira conține distribuția încărcărilor de experți, fiindca liniile discontinue reprezintă o distribuție tare echilibrată a jetoanelor între modalități sau experți. Rata de asigurare figură ilustrează volumul de muncă din cadrul experților, în curs ce imaginile rămase demonstrează performanța experților față de diferite modalități.

În catifea, imagine următoare demonstrează distribuția modalităților între diferiți experți.

Gânduri finale

În aiest paragraf am sonor impotriva MoE-LLaVA, o bază de referință pentru modelele de limba de vizualizare gros cu melanj de modele Cunoscator fiecine încorporează routere fiecine pot fi învățate și modele MoE. În esență, modelul MoE-LLaVA constă din mai multe căi rare, iar cadrul utilizează aceste căi pentru a inainta oricine token către diferiți experți prin routerul fiecine cumva fi învățat. Jetoanele sunt atunci procesate ansamblu de experții activați, păstrând în același curs tăcere căile inactive. Cadrul stivuiește atunci straturile de codificare Mixture of Cunoscator în mod iterativ pentru a darui o cale ferata rară către un LVLM mai gros și mai solid. Strategia MoE-Tuning abordează prochimen comună a degradării performanței în învățarea dispersată multimodală în mod innoitor, construind, în consecință, un sistem cu un număr nuantat gros de parametri, dar costuri consistente de initiere și inferență. Arhitectonie cadrului MoE-LLaVA a fost concepută asemenea încât să activeze conj experții de top-k în timpul implementării, menținând în același curs experții rămași inactivi.

(eticheteToTranslate)Modele de limbă holba

Citeşte mai mult

Stiri în tendințe