Thursday, May 23, 2024

LoReFT: Reprezentare Finetuning pentru modele de limbaj

Acțiune

Metodele de potrivire fină eficiente din interj de vizibilitate al parametrilor sau PeFT încearcă să adapteze modele a lati de stil prin actualizări la un număr mic de greutăți. Cu toate acestea, majoritatea lucrărilor de interpretabilitate existente au dovedit că reprezentările codifică informații bogate semantice, sugerând că ar a se cadea fi o alternativă mai bună și mai puternică pentru a publica aceste reprezentări. Modelele a lati pre-antrenate sunt deseori reglate fin pentru a fi utilizate pentru noi domenii sau sarcini, iar în timpul procesului de potrivire fină, un retras tipar de bază pesemne fi localizat la o geros categorie de sarcini, deslusit și cu numai cantități smeri de date în bransa disponibile. la tipar. Cu toate acestea, procesul de potrivire fină a unui întreg tipar consumă resurse și este scump, mai stilat pentru modelele de stil cu un număr caracteristic mai geros de dimensiuni și parametri.

Metodele de potrivire fină eficiente din interj de vizibilitate al parametrilor sau PeFT propun să abordeze costurile a lati asociate cu reglarea fină a întregului tipar prin actualizarea numai a unei cantități smeri din greutățile totale disponibile, un pricina orisicine ajută la reducerea timpului de antrenament împreună cu utilizarea memoriei. Ceea ce este mai solemn este că metodele de potrivire fină eficiente din interj de vizibilitate al parametrilor sau PeFT au dovedit performanțe similare cu cele ale reglajului fin în mai multe setări practice. Adaptoarele, o semintenie comună de metode eficiente de potrivire fină a parametrilor sau PeFT, învață o publicare orisicine pesemne fi adăugată la un set complementar de greutăți orisicine funcționează alături de modelul de bază înghețat, cu adaptoare recente, cum ar fi LoRA, reduc numărul de parametri antrenabili în învățați. actualizări de coinac prin utilizarea aproximărilor de treapta scăzut în loc de colica de coinac completă apoi când antrenați adaptoarele.

Cu lucrările anterioare orisicine demonstrează editarea reprezentărilor ar a se cadea fi o alternativă mai bună la metodele de potrivire fină eficiente din interj de vizibilitate al parametrilor sau metodele PeFT, în iest editorial, vom a spune asupra metodele de potrivire fină a reprezentării sau ReFT orisicine funcționează pe un tipar înghețat și vom învăța specifice sarcinii. intervenţii peste reprezentărilor ascunse. Aiest editorial își invoca să acopere în profunditate cadrul de potrivire fină a ReFt sau aratare și explorăm mecanismul, metodologia, arhitectonie cadrului împreună cu compararea acestuia cu cadrele de ultimă generație. Astfel, haideti sa începem.

În încercarea de a a-si insusi modele lingvistice pre-instruite pentru noi domenii și sarcini, cadrele actuale ajustează clasic aceste modele lingvistice pre-antrenate, ca și în cazul procesului de potrivire fină implementat, un retras tipar de bază pesemne fi localizat la o categorie de sarcini deslusit și apoi când lucrați cu o volum mică de date din bransa. Deși procesul de potrivire fină sporește performanța generală, este un pricina scump, mai stilat dacă modelul de limbă are un număr caracteristic geros de parametri. Pentru a hotari această problemă și a supune costurile asociate, cadrele de potrivire fină PeFT sau eficiente din interj de vizibilitate al parametrilor actualizează numai o mică judecie din greutățile totale, un pricina orisicine nu grabnic că supune timpul de antrenament, dar și utilizarea memoriei, permițând PeFT. cadre pentru a obține performanțe similare în comparație cu abordările complete de potrivire fină în scenarii practice. Adaptoarele, o semintenie comună de PeFT, funcționează prin învățarea unei editări orisicine pesemne fi adăugată la un set complementar de greutăți împreună cu un subset de greutăți orisicine funcționează la unison cu modelul de bază cu greutăți înghețate. Cadrele de adaptoare recente, cum ar fi LoRA și QLoRA, au dovedit că este poate să se antreneze adaptoare de acuratete completă pe prep modelelor de acuratete redusă, fără a a prejudicia performanța. Adaptoarele sunt de obisnuinta mai eficiente și mai eficiente în comparație cu alte metode orisicine introduc noi componente de tipar.

Un configuratie solemn al cadrelor de potrivire fină eficiente din interj de vizibilitate al parametrilor actuale este că, în loc să modifice reprezentările, acestea modifică ponderile. Cu toate acestea, cadrele orisicine se ocupă de interpretabilitate au dovedit că reprezentările codifică informații semantice bogate, sugerând că editarea reprezentărilor ar a se cadea fi o abordare mai bună și mai puternică în comparație cu actualizările de importanta. Această ipoteză potrivit căreia editarea reprezentărilor este cea mai bună abordare este cea orisicine formează postament ReFT sau a cadrului de potrivire fină a reprezentațiilor orisicine antrenează intervențiile în loc să adapteze ponderile modelului, permițând modelului să manipuleze o mică judecie din toate reprezentările în încercarea de a a calauzi comportamentele modelului. pentru a hotari sarcinile din aval în timpul inferenței. ReFT sau Redare Metodele de potrivire fină sunt înlocuitori introduse pentru cadrele de potrivire fină PeFT bazate pe coinac sau parametri eficiente. Abordarea ReFT se inspiră din modelele recente orisicine lucrează cu interpretabilitate geros a modelului orisicine intervine peste reprezentărilor pentru a găsi mecanisme cauzale fidele și orientează comportamentul modelului în timpul inferenței și, prin continuare, pesemne fi văzută ca o generalizare a modelelor de publicare a reprezentării. Pornind de la aceeași, LoReFT sau Low-Rank Subspace ReFT este o instanță puternică și eficientă a ReFT și este o parametrizare a ReFT orisicine intervine peste reprezentărilor ascunse în spațiul liniar invelit de musetel de proiecție de treapta scăzut și se bazează oblu pe DAS sau cadrul de căutare a alinierii distribuite.

Mergând de-a lungul, despre diferentiere de reglarea fină completă, PeFT sau cadrul de potrivire fină eficientă din interj de vizibilitate al parametrilor antrenează numai o mică judecie din parametrii modelului și reușește să adapteze modelul la sarcinile din aval. Cadrul de potrivire fină eficace din interj de vizibilitate al parametrilor pesemne fi clasificat în trei categorii principale:

  • Metode bazate pe adaptor: Metodele bazate pe adaptoare antrenează module suplimentare, cum ar fi straturi implinit conectate prep modelului pre-antrenat cu greutăți înghețate. Adaptoarele din seama inserează componente între perceptronul multistrat sau MLP și LM sau straturi de atenție tipar a lati, în curs ce adaptoarele paralele adaugă module alături de componentele existente. Deoarece adaptoarele adaugă noi componente orisicine nu pot fi pliate cu ușurință în greutățile modelului existente, ele reprezintă o povară suplimentară în timpul deducerii.
  • LoRA: LoRA, împreună cu variantele rarunchi recente, aproximează greutățile aditive în timpul antrenamentului utilizând colica de treapta scăzut și nu necesită costuri generale suplimentare în timpul inferenței, deoarece actualizările de coinac pot fi îmbinate în tipar și este motivul pentru orisicine sunt considerate a fi cele curente. cele mai iele cadre PeFT.
  • Metode bazate pe grabnic: Metodele bazate pe grabnic adaugă token-uri software orisicine sunt inițializate sporadic în patrundere și antrenează încorporarea acestora, păstrând în același curs ponderile modelului de stil înghețate. Performanța oferită de aceste metode nu este deseori satisfăcătoare în comparație cu alte abordări PeFT și, de atare, implică un aliment obstesc de inferență caracteristic.

În loc să actualizeze ponderile, cadrul ReFT învață intervenții pentru a a preface o mică judecie din totalul reprezentărilor. În velur, lucrările recente privind ingineria reprezentării și direcția de excitare au dovedit că adăugarea de vectori de direcție fix la fluxul rezidual ar a se cadea usura un nivel de vizita peste generațiilor a lati de modele pre-antrenate, fără a forta o potrivire fină orisicine necesită vartos resurse. Alte cadre au dovedit că editarea reprezentărilor cu o operațiune de scalare și talmacitura învățată pesemne încerca să se potrivească, dar nu să depășească performanța oferită de adaptoarele LoRA pentru o gamă largă de sarcini cu mai puțini parametri învățați. Mai vartos, succesul acestor cadre într-o seama de sarcini a dovedit că reprezentările introduse de modele de stil pre-antrenate au o semantică bogată, deși performanța acestor modele este sub-optimă, ceea ce duca la continuarea PeFT ca abordare de ultimă oră. fără sarcină suplimentară de inferență.

ReFT : Metoda și Arhitectură

Pentru a menține procesul de pastrare a stilului sadetica, cadrul ReFT crede ca tipar țintă un tipar geros bazat pe innoitor, orisicine este competent să producă o aratare contextualizată a secvenței de jetoane. Pentru o secvență dată cu n număr de jetoane de patrundere, cadrul ReFT încorporează mai întâi aceste jetoane de patrundere într-o listă de reprezentări, după orisicine cele m straturi calculează sumar reprezentărilor ascunse consecutiv în funcție de sumar anterioară de reprezentări ascunse. Oricine aratare ascunsă este un vector alunecator, iar modelul de stil folosește reprezentările ascunse finale pentru a fabrica predicțiile. Cadrul ReFT ia în considerare atât modelele de stil plin, cât și modelele de stil autoregresive. Indata, potrivit ipotezei reprezentării liniare, în rețelele neuronale, conceptele sunt codificate în subspatiile liniare ale reprezentărilor. Modelele recente au dezvelit că această afirmație este adevărată în modelele de rețele neuronale antrenate pe stil simplu, împreună cu alte distribuții de patrundere.

În velur, în studiile de interpretabilitate, cadrul de abstracție ocazională utilizează intervenții de interschimb pentru a institui rolul componentelor rețelei neuronale în mod intamplator apoi când implementează anumite comportamente. Logica matematica din spatele intervenției de interschimb este că, dacă se fixează o aratare la ceea ce ar fi fost pentru o patrundere contrafactuală, iar această intervenție afectează rezultatul modelului în mod neschimbat în valoare absoluta în orisicine afirmațiile făcute de cadrul ReFT cu infatisare la constituent responsabilă de emitere. acea aratare, apoi constituent joacă un rol cauzal în conduita. Deși există câteva metode, intervenția de schimb in natura distribuit este abordarea ideală pentru a a testalui dacă un notiune este incifrat într-un subspațiu liniar al unei reprezentări, așa cum se susține de presupunere reprezentării liniare. Mai vartos, stil DAS a fost folosită premergator pentru a găsi reprezentări liniare în modelele lingvistice a atributelor entității, sentimentului, caracteristicilor lingvistice și raționamentului punct. Cu toate acestea, mai multe experimente au nimerit că stil DAS este deosebit de expresivă și are capacitatea de a găsi subspații cauzale eficiente deslusit și apoi când modelul de stil innoitor a fost inițializat sporadic și, prin continuare, încă nu a învățat reprezentări specifice sarcinii, rezultând în dezbateți dacă DAS este indestulator de eficace și gestionar pentru sarcinile de interpretabilitate.

Expresivitatea oferită de DAS sugerează că abordarea ar a se cadea fi un ustensila perfect pentru a a domina comportamentul modelului de stil împreună cu patima sa privind generarea controlabilă și editarea responsabilă. Prin continuare, pentru a a adecva modele de stil pentru sarcinile din aval, cadrul ReFT utilizează operația de intervenție de schimb in natura distribuit pentru a a infaptui o metodă eficientă a parametrilor noi. Mai vartos, stil ReFT este un set de intervenții, iar cadrul afirma ca pentru oricine două intervenții orisicine operează pe același patura, pozițiile de intervenție musai să fie disjunse, parametrii tuturor funcțiilor de intervenție rămânând independenți. Ca consecinta, ReFT este un rama generic orisicine a ingloba intervenții peste reprezentărilor ascunse în timpul trecerii înainte a modelului.

ReFT: Experimente și rezultate

Pentru a-și a calcula performanța față de cadrele PEFT existente, cadrul ReFT efectuează experimente pe scaunas benchmark-uri diverse de procesare a limbajului simplu și acoperă deasupra 20 de seturi de date, scopul nodal fiind de a a da o vedenie bogată a modului în orisicine cadrul LoReFT funcționează în diferite scenarii. În velur, apoi când cadrul LoReFT este implementat în viața reală, dezvoltatorii musai să decidă câte intervenții să învețe, împreună cu pozițiile de patrundere și straturile pe orisicine să le aplice pe orice. Pentru a termina oficiu, cadrul ReFT reglează scaunas hiperparametri.

  1. Numărul de poziții de prefix pe orisicine să se intervină.
  2. Numărul de poziții de sufix pe orisicine să se intervină.
  3. Pe ce set de straturi să intervină.
  4. Lasator dacă să legați sau nu parametrii de intervenție în diferite poziții în același patura.

Făcând iest deala, cadrul ReFT simplifică spațiul de căutare a hiperparametrului și asigură numai un aliment complementar fix de inferență orisicine nu crește odată cu lungimea promptului.

Tabelul de mai sus compară acuratețea cadrelor LLaMA-7B și LLaMA-13B cu modelele PEFT existente în 8 seturi de date de raționament bun. După cum se pesemne supraveghea, modelul LoReFT depășește abordările PEFT existente cu o marjă decentă, în minune faptului că are vartos mai puțini parametri, performanța mijlocie a trei rulări fiind raportată cu semințe de parametri distincte pentru modelul LoReFT. Param(%) este echilibrat prin împărțirea numărului de parametri antrenabili cu numărul suma de parametri ai modelului geros de bază.

Tabelul de mai sus rezumă comparația de acuratețe a cadrelor LLaMA-7B și LLaMA-13B față de modelele PEFT existente în 4 seturi de date diferite de raționament aritmetic, cadrul raportând performanța mijlocie a trei rulări cu semințe aleatorii distincte. După cum se pesemne supraveghea, în minune faptului că are vartos mai puțini parametri (%), cadrul LoReFT depășește cadrele PEFT existente cu o marjă considerabilă.

Tabelul de mai sus rezumă comparația de acuratețe a cadrelor de bază RoBERTa și RoBERTa-large față de modelele PEFT existente în cadrul benchmark-ului GLUE, cadrul raportând performanța mijlocie a cinci rulări cu semințe aleatorii distincte. După cum se pesemne supraveghea, în minune faptului că are vartos mai puțini parametri (%), cadrul LoReFT depășește cadrele PEFT existente cu o marjă considerabilă.

Gânduri finale

În iest editorial, am oral asupra LoReFT, o alternativă puternică la cadrele PEFT existente, orisicine realizează performanțe iele în benchmark-uri din scaunas domenii diferite, oferind în același curs eficiență de până la 50 de ori mai geros decât cea oferită de modelele PEFT anterioare de ultimă generație. Modelele a lati pre-antrenate sunt deseori reglate fin pentru a fi utilizate pentru noi domenii sau sarcini, iar în timpul procesului de potrivire fină, un retras tipar de bază pesemne fi localizat la o geros categorie de sarcini, deslusit și cu numai cantități smeri de date în bransa disponibile. la tipar. Cu toate acestea, procesul de potrivire fină a unui întreg tipar consumă resurse și este scump, mai stilat pentru modelele de stil cu un număr caracteristic mai geros de dimensiuni și parametri. Metodele de potrivire fină eficiente din interj de vizibilitate al parametrilor sau PeFT propun să abordeze costurile a lati asociate cu reglarea fină a întregului tipar prin actualizarea numai a unei cantități smeri din greutățile totale disponibile, un pricina orisicine ajută la reducerea timpului de antrenament împreună cu utilizarea memoriei. În particular, LoReFT stabilește o nouă performanță de ultimă generație privind raționamentul de bun simț, urmărirea instrucțiunilor și înțelegerea limbajului simplu împotriva celor mai iele PEFT.

(eticheteToTranslate)minte artificiala

Citeşte mai mult

Stiri în tendințe