vineri, aprilie 12, 2024

Creșterea amestecului de experți pentru modele de limbaje mari eficiente

Acțiune

În lumea procesării limbajului caracter (NLP), urmărirea construirii unor modele de exprimare mai impauna și mai capabile a fost o forță motoare din spatele multor progrese recente. Cu toate acestea, pe măsură ce aceste modele cresc în masura, cerințele de comput pentru pregatire și inferență devin din ce în ce mai solicitante, împingând limitele resurselor hardware disponibile.

Introduceți Mixture-of-Experts (MoE), o tehnică fiecare anticipa să ușureze această povară de comput, permițând în același ritm antrenarea unor modele de exprimare mai impauna și mai iele. În iest blog tehnic, vom pătrunde în lumea MoE, explorând originile, funcționarea interioară și aplicațiile rarunchi în modele de exprimare bazate pe transformatoare.

Originile amestecului de experți

Conceptul de Mixture-of-Experts (MoE) posibil fi urmărit încă de la începutul anilor 1990, când cercetătorii au explorat ideea de comput condiționat, în fiecare părți ale unei rețele neuronale sunt activate selectiv pe a se increde datelor de angajare. Una dintre lucrările de pionierat în iest teren a fost lucrarea „Adaptive Mixture of Cladire Experts” de Jacobs et al. în 1991, fiecare a proiect un decor de învățare supravegheat pentru un colectiv de rețele neuronale, orisicare specializată într-o latura diferită a spațiului de angajare.

Ideea de bază din spatele MoE este de a a detine mai multe rețele „experți”, orisicare responsabilă pentru procesarea unui subset al datelor de angajare. Un masina de cas-care, de fire o rețea neuronală în sine, determină fiecare experți ar a fi să proceseze o anumită angajare. Această abordare a cuteza modelului să-și aloce resursele de comput mai eficace, activând cumva experții relevanți pentru orisicare angajare, mai degrabă decât să utilizeze întreaga forta a modelului pentru orisicare angajare.

De-a lungul anilor, diverși cercetători au explorat și crescut ideea calculării condiționate, ducând la dezvoltări bunaoara MoE ierarhice, aproximări de demnitate scăzut pentru calculul condiționat și tehnici de bilant a gradienților prin neuroni stochastici și funcții de intensificare cu bazin dur.

Imixtiune de experți în transformatoare

Imixtiune de experți

În ritm ce ideea de MoE există de zeci de ani, aplicarea sa la modelele de exprimare bazate pe transformatoare este privitor recentă. Transformatoarele, fiecare au devenit standardul de facto pentru modelele de exprimare de ultimă generație, sunt compuse din mai multe straturi, orisicare conținând un masina de auto-atenție și o rețea neuronală feed-forward (FFN).

Inovația cordar în aplicarea MoE la transformatoare este înlocuirea straturilor dense FFN cu straturi rare MoE, orisicare constând din mai multe FFN-uri experți și un masina de cas-care. Mecanismul de cas-care determină fiecare cunoscator(i) ar a fi să proceseze orisicare fisa de angajare, permițând modelului să activeze selectiv cumva un subset de experți pentru o anumită secvență de angajare.

Una dintre primele lucrări fiecare a dovedit potențialul MoE în transformatoare a fost lucrarea „Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer” de Shazeer și colab. în 2017. Această treaba a introdus conceptul unui placenta MoE cu reducere redusă, fiecare a vechi un masina de cas-care fiecare a adăugat tumult și tumult procesului de selecție a experților, asigurând că cumva un subset de experți a fost activat pentru orisicare angajare.

De apoi, alte câteva lucrări au progresist în urmare aplicarea MoE la transformatoare, abordând provocări bunaoara instabilitatea antrenamentului, echilibrarea sarcinii și inferența eficientă. Exemple notabile includ Switch Transformer (Fedus și colab., 2021), ST-MoE (Zoph și colab., 2022) și GLaM (Du și colab., 2022).

CITIT  Poate AI nedetectabil să facă textul ca un om?

Beneficiile Mixture-of-Experts pentru modelele lingvistice

Avantajul nodal al utilizării MoE în modelele de exprimare este capacitatea de a mări dimensiunea modelului, menținând în același ritm un aliment de comput privitor neschimbat în timpul inferenței. Prin activarea selectivă cumva a unui subset de experți pentru orisicare token de angajare, modelele MoE pot bate puterea expresivă a unor modele dense greu mai impauna, necesitând în același ritm greu mai puține calcule.

De pilduire, luați în considerare un sablon de exprimare cu un placenta FFN consistent de 7 miliarde de parametri. Dacă înlocuim iest placenta cu un placenta MoE pregatit din opt experți, orisicare cu 7 miliarde de parametri, numărul deplin de parametri crește la 56 de miliarde. Cu toate acestea, în timpul inferenței, dacă activăm cumva doi experți pe token, costul de comput este concordant cu un sablon consistent de 14 miliarde de parametri, deoarece calculează două înmulțiri ale matricei de 7 miliarde de parametri.

Această eficiență de comput în timpul inferenței este distinct de valoroasă în scenariile de introducere în fiecare resursele sunt limitate, cum ar fi dispozitivele mobile sau mediile de comput edge. În surplus, cerințele de comput reduse în timpul antrenamentului pot guverna la economii substanțiale de robustete și la o amprentă de indigo mai scăzută, în concordanță cu accentul tot mai amplu pus pe practicile AI durabile.

Provocări și considerații

În ritm ce modelele MoE oferă beneficii convingătoare, adoptarea și implementarea lor vin, de atare, cu câteva provocări și considerații:

  1. Instabilitatea antrenamentului: Se știe că modelele MoE sunt mai predispuse la instabilități de antrenament în comparație cu omologii lor consistent. Această problemă apare din defect rară și condiționată a activărilor experților, fiecare posibil guverna la provocări în propagarea și convergența gradientului. Tehnici bunaoara router z-loss (Zoph et al., 2022) au fost propuse pentru a a pondera aceste instabilități, dar sunt încă necesare cercetări suplimentare.
  2. Adaptare fină și supraajustare: Modelele MoE tind să se supraadapte mai ușor în timpul reglajului fin, mai selectionare când angajament din aval are un set de date privitor mic. Aiest comportare este atribuit capacității crescute și rarii modelelor MoE, ceea ce posibil guverna la supraspecializare a datelor de antrenament. Sunt necesare strategii de regulare și adaptare atentă pentru a a pondera această problemă.
  3. Cerințe de pamente: În ritm ce modelele MoE pot ocupa costurile de comput în timpul inferenței, ele au deseori cerințe mai impauna de pamente în comparație cu modelele dense de dimensiuni similare. Aiest obiect se datorează faptului că toate greutățile cunoscator musai să fie încărcate în pamente, deslusit dacă cumva un subset este activat pentru orisicare angajare. Constrângerile de pamente pot a margini scalabilitatea modelelor MoE pe dispozitivele cu resurse limitate.
  4. Echilibrarea sarcinii: Pentru a obține o eficiență de comput optimă, este esențial să echilibrați angajament între experți, asigurându-vă că niciun cunoscator nu este supraîncărcat, în ritm ce alții rămân subutilizați. Această contrabalansare a sarcinii se realizează de fire prin pierderi auxiliare în timpul antrenamentului și reglarea atentă a factorului de forta, fiecare determină numărul culminant de jetoane fiecare pot fi alocate fiecărui cunoscator.
  5. Teve generală: În scenariile de pregatire și inferență distribuite, modelele MoE pot a trece o suprasarcină suplimentară de instiintare datorită necesității de a a efectua transfer de informații de intensificare și gradient între experți fiecare locuiesc pe diferite dispozitive sau acceleratoare. Strategiile de instiintare eficiente și proiectarea modelelor conștiente de hardware sunt esențiale pentru a a pondera această suprasolicitare.
CITIT  Cum să dezordineți Mac-ul și să gestionați datele de sistem

În miracol acestor provocări, beneficiile potențiale ale modelelor MoE în a a cuteza modele de exprimare mai impauna și mai capabile au stimulat eforturi semnificative de consultare pentru a a ataca și a a pondera aceste probleme.

Paradigma: Mixtral 8x7B și GLaM

Pentru a exemplifica aplicarea practică a MoE în modelele de exprimare, să luăm în considerare două exemple notabile: Mixtral 8x7B și GLaM.

Mixtral 8x7B este o variantă MoE a modelului de exprimare Mistral, mare de Anthropic. Este pregatit din opt experți, orisicare cu 7 miliarde de parametri, rezultând un deplin de 56 de miliarde de parametri. Cu toate acestea, în timpul inferenței, cumva doi experți sunt activați pe token, reducând realmente costul de comput la cel al unui sablon consistent de 14 miliarde de parametri.

Mixtral 8x7B a dovedit o performanță impresionantă, depășind modelul Llama cu 70 de miliarde de parametri, oferind în același ritm timpi de inferență greu mai rapizi. A fost lansată și o varianta ajustată cu instrucțiuni a Mixtral 8x7B, numită Mixtral-8x7B-Instruct-v0.1, îmbunătățindu-i și mai greu capacitățile de a intiparire instrucțiunile în exprimare caracter.

Un alt pilduire vrednic de remarcat este GLaM (Google Language Sistem), un sablon MoE la scară largă mare de Google. GLaM folosește o arhitectură de modificare abia pentru decodor și a fost cult pe un set de date munte de 1,6 trilioane de token. Modelul realizează o performanță impresionantă la evaluările cu puține și cu o singură lovitură, potrivindu-se cu calitatea GPT-3, utilizând în același ritm cumva o troita din energia necesară antrenării GPT-3.

Succesul GLaM posibil fi atribuit arhitecturii rarunchi eficiente MoE, fiecare a autorizatie formarea unui sablon cu un număr amplu de parametri, menținând în același ritm cerințe de comput rezonabile. Modelul a dovedit, de atare, potențialul modelelor MoE de a fi mai eficiente din stadiu de vizibilitate energetic și mai vartos din stadiu de vizibilitate al mediului în comparație cu omologii lor consistent.

Arhitectonie Grok-1

GROK AMESTEC DE EXPERT

GROK AMESTEC DE EXPERT

Grok-1 este un sablon MoE bazat pe innoitor, cu o arhitectură unică concepută pentru a maximaliza eficiența și performanța. Să ne aprofundăm în specificațiile cordar:

  1. Parametrii: Cu 314 miliarde de parametri ametitor, Grok-1 este cel mai amplu LLM necicatrizat până în surpriza. Cu toate acestea, datorită arhitecturii MoE, cumva 25% din ponderi (circa 86 de miliarde de parametri) sunt active la un minut dat, sporind capacitățile de procesare.
  2. Arhitectură: Grok-1 folosește o arhitectură Mixture-of-8-Experts, orisicare token fiind procesat de doi experți în timpul inferenței.
  3. Straturi: Modelul constă din 64 de straturi de transformatoare, orisicare încorporând atenție multicap și blocuri dense.
  4. Tokenizare: Grok-1 utilizează un tokenizer SentencePiece cu o masura de glosar de 131.072 de jetoane.
  5. Înglobări și codificare pozițională: Modelul avea de înglobări de 6.144 dimensionale și folosește încorporații poziționale rotative, permițând o analizare mai dinamică a datelor în comparație cu codificările poziționale fixe tradiționale.
  6. Atenţie: Grok-1 folosește 48 capital de atenție pentru interogări și 8 capital de atenție pentru stramtura și valori, orisicare cu o masura de 128.
  7. Lungimea contextului: Modelul posibil procesa secvențe de până la 8.192 de jetoane în intindere:, utilizând precizia bfloat16 pentru un comput eficace.
CITIT  TinySAM: Depășirea limitelor pentru modelul de segmentare orice

Detalii de performanță și introducere

Grok-1 a dovedit o performanță impresionantă, depășind LLaMa 2 70B și Mixtral 8x7B cu un scor MMLU de 73%, arătându-și eficiența și acuratețea în diferite teste.

Cu toate acestea, este solemn de reținut că Grok-1 necesită resurse GPU semnificative datorită dimensiunii rarunchi impauna. Implementarea actuală în versiunea open-source se concentrează pe validarea corectitudinii modelului și folosește o introducere ineficientă a stratului MoE pentru a a preintampina necesitatea unor nuclee personalizate.

Cu toate acestea, modelul acceptă sharding-ul de intensificare și cuantizarea pe 8 biți, ceea ce posibil imbunatati performanța și ocupa cerințele de pamente.

Într-o mișcare remarcabilă, xAI a lansat Grok-1 sub licența Apache 2.0, făcându-și ponderile și arhitectonie accesibile comunității globale pentru aplicare și contribuții.

Versiunea open-source ingloba un pilduire de magazie de cod JAX fiecare demonstrează cum să încărcați și să rulați modelul Grok-1. Utilizatorii pot descărca greutățile punctelor de inspectare folosind un cumparator torrent sau oblu prin HuggingFace Hub, facilitând accesul ușor la iest sablon innoitor.

Viitorul amestecului de experți în modele lingvistice

Pe măsură ce cererea pentru modele de exprimare mai impauna și mai capabile continuă să crească, se așteaptă ca adoptarea tehnicilor MoE să capital un imbold intregitor. Eforturile de consultare în curent se concentrează pe abordarea provocărilor rămase, cum ar fi îmbunătățirea stabilității antrenamentului, atenuarea supraajustării în timpul reglajului fin și optimizarea cerințelor de pamente și instiintare.

O direcție promițătoare este explorarea arhitecturilor ierarhice MoE, în fiecare orisicare cunoscator în sine este heterociclu din mai mulți sub-experți. Această abordare ar a merge a cuteza o scalabilitate și o eficiență computațională și mai amplu, menținând în același ritm puterea expresivă a modelelor impauna.

În surplus, dezvoltarea de sisteme hardware și soft optimizate pentru modelele MoE este un teren harnic de consultare. Acceleratoarele specializate și cadrele de pregatire distribuite concepute pentru a gestiona eficace modelele de comput rare și condiționate ale modelelor MoE ar a merge îmbunătăți și mai greu performanța și scalabilitatea acestora.

În surplus, integrarea tehnicilor MoE cu alte progrese în modelarea limbajului, cum ar fi mecanismele de atenție rară, strategiile eficiente de tokenizare și reprezentările multimodale, ar a merge guverna la modele de exprimare și mai iele și versatile, capabile să abordeze o gamă largă de sarcini.

Invatamant

Tehnica Mixture-of-Experts a apărut ca un dichis proeminent în căutarea unor modele de exprimare mai impauna și mai capabile. Prin activarea selectivă a experților pe a se increde datelor de angajare, modelele MoE oferă o soluție promițătoare la provocările de comput asociate cu extinderea modelelor dense. Deși există încă provocări de depășit, cum ar fi instabilitatea antrenamentului, supraadaptarea și cerințele de pamente, beneficiile potențiale ale modelelor MoE în ceea ce privește eficiența computațională, scalabilitatea și sustenabilitatea mediului le fac un teren interesant de consultare și curs.

Pe măsură ce domeniul prelucrării limbajului caracter continuă să depășească limitele a ceea ce este practicabil, adoptarea tehnicilor MoE va dansa virtual un rol esential în a a cuteza următoarea generație de modele de exprimare. Combinând MoE cu alte progrese în arhitectonie modelului, tehnici de antrenament și imbunatatire hardware, putem aștepta cu nerăbdare modele de exprimare și mai iele și versatile, fiecare pot înțelege cu adevărat și a informa cu oamenii într-un mod caracter și fără întreruperi.

(eticheteToTranslate)grok

Citeşte mai mult

Stiri în tendințe