Modelele de exprimare grozavi (LLM) actuale cu circumstanta prelung pot procesa intrări de până la 100.000 de jetoane, dar se luptă să genereze rezultate fiecine depășesc savai și o marime modestă de 2.000 de cuvinte. Experimentele controlate arată că lungimea efectivă de provocare a modelului este limitată în mod inerent de exemplele văzute în timpul reglajului fin supravegheat (SFT). Cu alte cuvinte, această marginire a ieșirii provine din deficitul de exemple de ieșire lungă în seturile de date SFT existente.
Progresele recente ale LLM-urilor de lungă durată au condus la dezvoltarea de modele cu capacități de pamente spunator extinse, capabile să proceseze istoria de peste-curcubeu 100.000 de jetoane în marime. Cu toate acestea, în miracol capacității lor de a gestiona intrări extinse, actualele LLM-uri cu circumstanta prelung se luptă să genereze rezultate la fel de a se intinde.
Pentru a a sonda această marginire, LongWriter analizează lungimea maximă de ieșire a modelelor de ultimă generație cu circumstanta prelung cu mai multe interogări fiecine necesită răspunsuri de lungimi diferite, cum ar fi „Scrieți un articol de fond de 10.000 de cuvinte contra istoria Imperiului Granat. ” Rezultatele arată că toate modelele nu reușesc în mod uniform să producă rezultate mai grozavi de 2.000 de cuvinte. Între etate, analizare jurnalelor de interacțiune a utilizatorilor dezvăluie că peste-curcubeu 1% dintre solicitările utilizatorului solicită în mod clar ieșiri fiecine depășesc această limită, evidențiind o pericol presantă în cercetările actuale de a depăși această marginire.
Pentru a a solutiona cest munca, LongWriter a trece AgentWrite, o conductă bazată pe agenți fiecine a divide sarcinile de provocare ultra-lungă în subsarcini, permițând LLM-urilor standing să genereze rezultate coerente fiecine depășesc 20.000 de cuvinte. Folosind AgentWrite, LongWriter construiește LongWriter-6k, un set de date fiecine conține 6.000 de mostre de date SFT cu lungimi de ieșire cuprinse între 2k și 32k de cuvinte. Prin încorporarea acestui set de date în formarea modelului, LongWriter scalează cu reusire lungimea de ieșire a modelelor existente la peste-curcubeu 10.000 de cuvinte, menținând în același etate calitatea rezultatelor.
LongWriter dezvoltă, de atare, LongBench-Write, un model cuprinzător pentru evaluarea capabilităților de generație ultra-lungă. Modelul parametrilor 9B, îmbunătățit în urmare prin DPO, bate performanțe de ultimă generație la cest exact de referință, depășind savai și modelele proprietare indelungat mai grozavi.
În cest articol de fond, vom a basadi cadrul LongWriter, vom a sonda maimarie acestuia și vom a semui performanța acestuia cu modelele de exprimare grozavi de ultimă generație pentru circumstanta prelung. Să începem.
Progresele recente în modelele de exprimare grozavi (LLM) cu circumstanta prelung au condus la crearea de modele cu capacități de pamente spunator crescute, capabile să proceseze istorii fiecine depășesc 100.000 de jetoane. În miracol acestei capacități de a gestiona intrări extinse, actualele LLM-uri de lungă durată se luptă să genereze rezultate de marime comparabilă. Pentru a analiza această marginire, LongWriter examinează lungimea maximă de ieșire a modelelor de ultimă generație cu circumstanta prelung prin diverse interogări fiecine necesită lungimi de răspuns diferite, cum ar fi „Scrieți un articol de fond de 10.000 de cuvinte contra istoria Imperiului Granat”. Pe a se aseza constatărilor, LongWriter observă că toate modelele nu reușesc în mod uniform să genereze rezultate mai a se intinde de 2.000 de cuvinte. În velur, o analiză a jurnalelor de interacțiuni ale utilizatorilor indică faptul că peste-curcubeu 1% dintre solicitările utilizatorului solicită în mod caracteristic rezultate decinde de această limită, evidențiind o pericol urgentă în cercetările actuale de a acosta această problemă.
Studiul lui LongWriter dezvăluie o perspectivă esențială: constrângerea inspre lungimii ieșirii este în nodal înrădăcinată în caracteristicile seturilor de date Supervised Incheiere-Tuning (SFT). Mai bine, LongWriter constată că lungimea maximă de provocare a unui tipar este limitată incontestabil de localiza superioară a lungimii de ieșire prezentă în setul de date SFT, în miracol expunerii rarunchi la secvențe indelungat mai a se intinde în timpul fazei de preantrenament. Această stabilire explică localiza omniprezentă de provocare de 2.000 de cuvinte în modelele actuale, deoarece seturile de date SFT existente arar conțin exemple fiecine depășesc această marime. În velur, deoarece multe seturi de date sunt distilate din LLM-uri de ultimă generație, ele moștenesc și limitarea lungimii de ieșire din modelele lor sursă.
Pentru a a solutiona această marginire, LongWriter a trece AgentWrite, o nouă conductă bazată pe agenți, concepută pentru a aplica LLM-uri de la corlata pentru a a face reflex rezultate extinse și coerente. AgentWrite funcționează în două etape: În intaiul rând, elaborează un chip amanuntit de scriptura fiecine subliniază osatura și numărul de cuvinte țintă pentru fiesce alineat, pe a se aseza intrării utilizatorului. Atunci, urmând cest chip, îi solicită modelului să genereze conținut pentru fiesce alineat într-o manieră secvențială. Experimentele LongWriter validează faptul că AgentWrite pasamite a odrasli rezultate de înaltă virtute și coerente de până la 20.000 de cuvinte.
Bazându-se pe pipeline AgentWrite, LongWriter folosește GPT-4o pentru a starni 6.000 de date SFT de ieșire lungă, denumite LongWriter-6k, și adaugă aceste date pentru a antrena modelele existente. În particular, LongWriter-6k deblochează cu reusire capacitatea modelului de a starni rezultate placut structurate, fiecine depășesc 10.000 de cuvinte. Pentru a a prinde strasnic eficacitatea acestei abordări, LongWriter dezvoltă benchmark-ul LongBench-Write, fiecine conține un set diferit de instrucțiuni de scriptura pentru utilizator, cu specificații privind lungimea de ieșire variind de la 0-500 de cuvinte, 500-2.000 de cuvinte, 2.000-4.000 de cuvinte și mai indelungat. 4.000 de cuvinte. Evaluarea pe LongBench-Write arată că modelul de format 9B al LongWriter bate performanțe de ultimă generație, savai și în comparație cu modelele proprietare mai grozavi. LongWriter construiește în urmare date de preferințe și folosește DPO pentru a a prindori modelul să urmeze mai placut instrucțiunile de scriptura lungă și să genereze conținut inscris de virtute superioară, fiecine s-a verificat, de atare, eficace prin experimente.
Pentru a reduce, incercare lui LongWriter duce următoarele contribuții noi:
- Spilcuta limitelor duratei generației: LongWriter identifică factorul nodal fiecine limitează lungimea de ieșire a LLM-urilor actuale cu circumstanta prelung, fiecine este constrângerea inspre lungimii de ieșire în datele SFT.
- Perceptor Contura: Pentru a depăși această marginire, LongWriter preda AgentWrite, fiecine utilizează o abordare împărțiți și cuceriți cu LLM-uri disponibile pentru a a face reflex date SFT cu ieșiri ultra-lungi. Folosind această metodă, LongWriter construiește setul de date LongWriter-6k.
- Scalare dimensiunea ferestrei de ieșire a LLM-urilor curente: LongWriter încorporează setul de date LongWriter-6k în datele rarunchi SFT, scalând cu reusire dimensiunea ferestrei de ieșire a modelelor existente la peste-curcubeu 10.000 de cuvinte fără a a discredita calitatea ieșirii. LongWriter arată că DPO îmbunătățește și mai indelungat capacitățile de scriptura a textului prelung ale modelului.
AgentWrite: Edificare automată a datelor
Pentru a folosi LLM-uri standing pentru a starni reflex date SFT cu ieșiri mai a se intinde, LongWriter proiectează AgentWrite, o conductă de agenți de tip divide-and-cuquer. AgentWrite a divide mai întâi sarcinile a se intinde de scriptura în mai multe subsarcini, fiesce subsarcină necesitând modelului să arata oare un alineat. Modelul execută atunci aceste subsarcini secvențial, iar LongWriter concatenează ieșirile subsarcinii pentru a obține rezultatul prelung sfarsit. O asemenea de abordare de împărțire a unei sarcini complexe în mai multe subsarcini folosind agenți LLM a fost inca aplicată în diverse domenii, cum ar fi rezolvarea de probleme, dezvoltarea de soft și evaluarea modelelor. Patima lui LongWriter este prima de asigurare fiecine explorează integrarea planificării pentru a a cuteza modelelor să finalizeze sarcini complexe de scriptura pe exprimare a se intinde. Orisicare pas al AgentWrite este prezentat în amanunt mai jos.
Pasul I: Planifică
Iluminat de procesul de gândire al scriitorilor umani, fiecine încep de narav prin a realiza un chip comun pentru sarcini a se intinde de scriptura, LongWriter utilizează capacitățile de programare ale LLM-urilor pentru a exciza o asemenea de schiță de scriptura, având în vazut o instrucțiune de scriptura. Aiest chip cuprinde cerințele principale privind conținutul și numărul de cuvinte pentru fiesce alineat. Promptul uzitat de LongWriter este următorul:
„Vreau să mă ajuți să descompun următoarele instrucțiuni de scriptura lungă în mai multe subsarcini. Orisicare subsarcină va calauzi scrierea unui alineat din eseu și ar a se cuveni să includă punctele principale și cerințele privind numărul de cuvinte pentru acel alineat. Instrucțiunea de scriptura este după cum urmează: {Instrucțiuni utilizator}. Vă rugăm să o împărțiți în următorul marime, fiesce subsarcină ocupând un rând:
Paragraful 1 – Punctul nodal: (Descrieți punctul nodal al paragrafului, în amanunt) – Numărul de cuvinte: (cerința de numărare a cuvintelor, de mostra, 400 de cuvinte)
Paragraful 2 – Exact nodal: (Descrieți punctul nodal al paragrafului, în amanunt) – Număr de cuvinte: (cerință de numărare de cuvinte, de mostra 1000 de cuvinte).Asigurați-vă că fiesce subsarcină este clară și specifică și că toate subsarcinile acoperă întregul conținut al instrucțiunii de scriptura. Nu împărțiți subsarcinile exagerat fin; paragraful fiecărei sarcini secundare ar a se cuveni să aibă nu mai puțin de 200 de cuvinte și nu mai indelungat de 1000 de cuvinte. Nu scoateți niciun alt conținut.”
Pasul II: Scrieți
După obținerea planului de scriptura de la Pasul I, LongWriter apelează în insiruire LLM pentru a termina fiesce subsarcină, generând conținutul de scriptura secțiune cu secțiune. Pentru a a sigura coerența rezultatelor, apoi când LongWriter apelează modelul pentru a starni secțiunea a n-a, se a trece și n-1 secțiuni generate precezator, permițând modelului să continue să arata următoarea secțiune pe a se aseza istoricului de scriptura prezent. Deși această manieră în insiruire împiedică apelurile paralele către tipar pentru a termina mai multe subsarcini odata, iar lungimea de angajare devine mai friguros, LongWriter arată în confirmare că coerența generală și calitatea scrierii obținute în cest mod sunt cu indelungat superioare rezultatelor generate în concomitent. Promptul utilizat de LongWriter este:
„Ești un admirabil participant de inscris. Vă voi a da o instrucțiune de scriptura originală și pașii de scriptura planificați. Îți voi a da și textul pe fiecine l-am inscris inca. Vă rog să mă ajutați în urmare să scriu următorul alineat pe a se aseza instrucțiunilor de scriptura, a pașilor de scriptura și a textului inca inscris.
Instructiuni de scriptura:
{Instrucțiuni pentru utilizator}
Pași de scriptura:
{Planul de scriptura generat în Pasul I}
Glasuire inca inscris:
{Paragrafele generate anterioare (n-1)}
Vă rugăm să integrați instrucțiunile originale de scriptura, pașii de scriptura și textul inca inscris și adineauri continuați să scrieți {Planul pentru al n-lea alineat, adică a n-a rand din planul de scriptura}.”
Confirmare
LongWriter testează intindere generației și calitatea metodei AgentWrite propuse pe două seturi de date de scriptura lungă. Intaiul, LongWrite-Ruler, este uzitat pentru a măsura bine cât de lungă de ieșire pasamite a da metodologie. Al doilea, LongBench-Write, este uzitat în nodal pentru a a prinde cât de placut se aliniază conținutul generat de tipar cu instrucțiunile utilizatorului în ceea ce privește lungimea și calitatea scrierii.
LongBench-Write: Pentru a a prinde performanța modelului pe o gamă mai diversă de instrucțiuni de scriptura în formă lungă, LongWriter colectează 120 de solicitări de scriptura variate ale utilizatorilor, dintre fiecine 60 în chineză și 60 în engleză. Pentru a a prinde mai placut dacă lungimea de ieșire a modelului îndeplinește cerințele utilizatorului, LongWriter se asigură că toate aceste instrucțiuni includ cerințe explicite de numărare a cuvintelor. Aceste instrucțiuni sunt împărțite în scaun subseturi pe a se aseza cerințelor privind numărul de cuvinte: 0-500 de cuvinte, 500-2.000 de cuvinte, 2.000-4.000 de cuvinte și peste-curcubeu 4.000 de cuvinte. În velur, instrucțiunile sunt clasificate în șapte tipuri în funcție de tipul de rezultate: literatură și scriptura creativă, academică și monografie, știință populară, scriptura funcțională, relatie de știri, forum comunitar și educație și constituire.
În timpul evaluării, LongWriter adoptă două metrici: una pentru notarea lungimii ieșirii și alta pentru notarea calității ieșirii. Lungimea de ieșire a modelului este punctată în funcție de cât de aproximativ este de cerințele specificate în instrucțiuni. Pentru calitatea ieșirii, LongWriter folosește abordarea LLM-as-a-judge, selectând modelul de ultimă generație GPT-4o pentru a comentariu rezultatul în șase dimensiuni: relevanță, acuratețe, coerență, evidenta, lățime și adanc și Experiență de lectură. Scorul sfarsit se calculează prin medierea scorului de marime și a scorului de virtute.
Rezultatele validării: LongWriter prezintă măsurarea lungimii de ieșire pe LongWrite-Ruler și constată că AgentWrite a ridica cu reusire lungimea de ieșire a GPT-4o de la maxim 2k de cuvinte la relativ 20k de cuvinte. LongWriter evaluează, de atare, atât calitatea ieșirii, cât și aderarea la lungimea necesară de ieșire pe LongBench-Write, arătând că GPT-4o pasamite termina cu reusire sarcini cu rezultate sub 2.000 de cuvinte apoi când evaluează performanța AgentWrite.
Potrivire fină supravegheată
LongWriter desfășoară cursuri bazate pe două dintre cele mai recente modele open-source, și expres GLM-4-9B și Llama-3.1-8B. Ambele sunt modele de bază și acceptă o fereastră de circumstanta de până la 128.000 de jetoane, făcându-le potrivite în mod curat pentru antrenament cu rezultate a se intinde. Pentru a realiza antrenamentul mai eficace, LongWriter adoptă antrenamentul de împachetare cu dispa-ritie de inraurire. Antrenamentul pe cele două modele are ca efect două modele: LongWriter-9B (comprimat pentru GLM-4-9B-LongWriter) și LongWriter-8B (comprimat pentru Llama-3.1-8B-LongWriter).
În același etate, LongWriter observă că dacă pierderea este mediată pe secvență, adică luând mijloci pierderii medii a fiecărei secvențe într-un lot, contribuția fiecărui fisa țintă la pierderea datelor de ieșire a se intinde ar fi spunator mai mică decât cele cu ieșiri mai scurte. În experimentele lui LongWriter, se constată, de atare, că cest munca incanta la performanțe suboptime ale modelului pentru sarcini cu rezultate a se intinde. Prin frecventare, LongWriter a indemna o strategie de ponderare a pierderilor fiecine realiza o mijlocie a pierderii prin imagine, inde pierderea este calculată ca mijlocie a pierderilor pentru toate simbolurile țintă din acel lot.
Toate modelele sunt antrenate folosind un nod cu GPU-uri 8xH800 80G și descărcare DeepSpeed+ZeRO3+CPU. LongWriter folosește o format a lotului de 8, o rată de învățare de 1e-5 și o marime de impachetare de 32k. Modelele sunt antrenate pentru 4 epoci, ceea ce durează relativ 2.500-3.000 de pași.
Aliniere (DPO)
Pentru a îmbunătăți și mai indelungat calitatea ieșirii modelului și pentru a îmbunătăți capacitatea acestuia de a perinda constrângerile de marime în instrucțiuni, LongWriter efectuează optimizarea directă a preferințelor (DPO) pe modelul LongWriter-9B, reglat fin, supravegheat. Datele DPO provin din datele DPO de chat ale GLM-4 (relativ 50.000 de intrări). În velur, LongWriter construiește 4k perechi de date fiecine vizează în mod caracteristic instrucțiunile de scriptura de formă lungă. Pentru fiesce instrucțiune de scriptura, LongWriter eșantionează 4 rezultate de la LongWriter-9B și notează aceste rezultate urmând o metodă specifică. Un scor de urmărire a lungimii este, de atare, compus așa cum este cumpatat. Ieșirea cu cel mai friguros punctatiune este atunci selectată ca eșantion practic, iar una dintre cele trei ieșiri rămase este aleasă sporadic ca eșantion minus.
Modelul efect, LongWriter-9B-DPO, este antrenat pentru 250 de pași pe amestecul de date de mai sus. LongWriter urmează o rețetă specifică pentru formarea DPO.
LongWriter: Experimente și rezultate
LongWriter evaluează 4 modele proprietare și 5 modele open-source pe LongBench-Write, împreună cu modelele LongWriter instruite. După cunoștințele LongWriter, Incarunti-IORPO este singurul tipar precezator fiecine este, de atare, insirat pentru generarea de context în formă lungă. Este antrenat pe a se aseza Mistral-7B-Instruct-v0.2 folosind LoRA. În concordanță cu configurația de estimare pe LongWrite-Ruler, LongWriter setează friguri de ieșire la 0,5 și configurează parametrul de provocare maximă de jetoane al modelului la maximul autorizatie de apelul său API. Pentru modelele open-source, asta este setat la 32.768.
Majoritatea modelelor anterioare nu pot îndeplini cerința de marime de peste-curcubeu 2.000 de cuvinte, în etate ce modelele LongWriter oferă în mod uniform răspunsuri mai a se intinde și mai bogate la asemenea de solicitări.
Observând scorul lungimii de ieșire SlS_lSl pentru solicitările din fiesce perioada de marime indispensabil, LongWriter constată că modelele anterioare au în comun rezultate slabe (punctatiune sub 70) la solicitările din intervalul (2k, 4k), oare Claude 3.5 Sonnet obținând un scor sfios. Pentru solicitări în intervalul (4k, 20k), aproximativ toate modelele anterioare nu pot bate lungimea țintă de ieșire, savai și obținând un scor 0 (înseamnă că toate lungimile de ieșire sunt mai micsora de o troita din lungimea necesară). Adăugând date de antrenament de la LongWriter-6k, modelul antrenat de la LongWriter pasamite bate în mod eficace lungimea necesară de ieșire, menținând în același etate o virtute bună, așa cum sugerează scorurile în intervalul (2k, 20k) și diagramele de imprastiere.
DPO îmbunătățește în mod eficace atât calitatea de ieșire a modelului, cât și capacitatea acestuia de a a tine cerințele de marime în generarea lungă.
Comparând scorurile LongWriter-9B și LongWriter9B-DPO, constatăm că DPO îmbunătățește spunator atât scorurile Sl (+4%), cât și Sq (+3%), iar îmbunătățirea este consecventă în toate intervalele. Aiest munca arată că, în scenariul de generație lungă, DPO încă ajută la îmbunătățirea calității de ieșire a modelului și pasamite a insirui mai placut lungimea de ieșire a modelului cu 8 Preprint Afla 7: Pierderea mijlocie cumulativă a NLL a GLM4-9B și Llama-3.1-8B la diferite poziții ale LongWriter. ieșirile modelelor. Afla 8: Rezultatele testului LongWrite-Ruler ale modelelor LongWriter, arătând lungimile maxime de provocare între 10k-20k cuvinte. lungimea cerută. Ultima incheiere a fost observată actual și în Yuan și colab. (2024) în generații mai scurte. De atare, adnotăm fizic câștigurile și pierderile în perechi pentru GPT-4o și trei modele longwriter pe rezultatele lor în LongBench-Write și vizualizăm rezultatele în Afla 9. Putem cuprinde că oamenii preferă modelul cult de DPO față de LongWriter-9B în 58% din cazurile. Mai indelungat, în miracol faptului că are mai puțini parametri, LongWriter-9B-DPO realizează o paritate cu GPT-4o.
Localiza lungimii de ieșire a modelelor LongWriter este extinsă la între 10k și 20k de cuvinte, în etate ce sunt necesare mai multe date cu ieșiri a se intinde pentru a a indura ieșiri și mai a se intinde.
În perinda testului LongWrite-Ruler, prezentăm și rezultatele testului LongWrite-Ruler ale modelelor LongWriter. Rezultatele sugerează că lungimile lor maxime de provocare sunt între 10k-20k cuvinte. Neajungere datelor SFT cu ieșiri mai a se intinde este potential motivul nodal fiecine împiedică modelul să obțină lungimi de ieșire mai grozavi.
Gânduri finale
În această scriere, am sonor contra LongWriter, o conductă bazată pe agenți fiecine a divide sarcinile de provocare ultra-lungă în subsarcini, identifică o limită de provocare de 2.000 de cuvinte pentru LLM-urile actuale și preda creșterea dimensiunii ferestrei lor de ieșire prin adăugarea de date a se intinde de ieșire în timpul alinierii. . Pentru a a face reflex date de ieșire lungă, LongWriter dezvoltă AgentWrite, o conductă bazată pe agenți fiecine utilizează LLM-uri de la corlata pentru a fauri rezultate extinse și coerente. LongWriter scalează cu reusire dimensiunea ferestrei de ieșire a LLM-urilor actuale la peste-curcubeu 10.000 de cuvinte cu LongWriter-6k construit. Studii extinse de ablație inspre datelor de antrenament demonstrează eficacitatea acestei abordări. Pentru lucrări viitoare, LongWriter sugerează următoarele trei direcții: 1. Extindeți cadrul AgentWrite pentru a a face date cu rezultate mai a se intinde pentru a a ridica și mai indelungat dimensiunea ferestrei de ieșire a LLM-urilor. 2. Rafinați cadrul AgentWrite pentru a obține date de ieșire lungă de virtute superioară. 3. Rezultatele mai a se intinde ale modelului aduc provocări pentru eficiența inferenței. Au fost propuse mai multe metode pentru a îmbunătăți eficiența inferenței. Merită investigat valoare absoluta în fiecine aceste metode pot a sigura o eficiență îmbunătățită a modelului fără a a discredita calitatea generației.
(eticheteToTranslate)GPT-4o