Rezumatul automat al textului – Lincoln, Introducere în rezumat automat – Blogul de date

Un blog despre date, inteligență artificială și proiectele mele

Rezumatul automat este să luați un text lung, sau chiar un set de texte și să generați automat un text mult mai scurt, care conține majoritatea informațiilor. Simplu ? Nu atât de mult. În primul rând, trebuie să fiți de acord cu ce informații sunt cu adevărat importante. Apoi, trebuie să le putem extrage în mod corespunzător, să le reorganizăm, toate într -un text gramatical și fără intervenție umană. Și asta este fără a conta pe numărul mare de variante de rezumate posibile !

Rezumatul textului automat

Odată cu explozia de colectare și stocare a texturii, nevoia de a analiza și extrage informații relevante din această masă este din ce în ce mai prezentă.

În plus, boom -ul modelelor de învățare profundă pentru procesarea automată a limbajului natural (TALN) a facilitat utilizarea datelor textuale în problemele operaționale. Rezumatul automat al textului, în același mod ca și întrebarea de răspuns, analiza similarității, clasificarea documentului și alte sarcini legate de Taln fac parte din aceste probleme.

În acest context este că Inovație de laborator De Lincoln a decis să efectueze lucrări la rezumatul textului automat. Aceste lucrări au făcut posibilă stabilirea unui punct de referință al modelelor rezumate automate disponibile pentru limbă limba franceza, Pentru a ne provoca propriul model și a -l pune în sfârșit în producție.

�� Pregătirea modelului

Rezumatul automat mondial

Date

Înainte de a ne putea începe munca, a trebuit mai întâi să construim o bază de date pentru învățarea modelelor sumare automate. Am recuperat articole de presă de pe mai multe site -uri de știri franceze. Această bază conține ~ 60K articole și este actualizată continuu.

De ultimă oră

Algoritmii rezumați automați pot fi separați în două categorii: rezumate extractiv și rezumate abstract. In cadru extractiv, Rezumatele sunt construite din propoziții extrase din text în timp ce rezumate abstract sunt generate din propoziții noi.

Modelele rezumate automate sunt destul de frecvente în engleză, dar sunt mult mai puțin în franceză.

Metrici

Pentru evaluarea modelelor, am folosit următoarele valori:

ROȘU : Fără îndoială, măsurarea raportată cel mai des în sarcinile sumare, subestimarea orientată spre rechemare pentru evaluarea de succes (Lin, 2004) calculează numărul de N-grame similare între rezumatul evaluat și rezumatul de referință umană.

Meteor: Metrica pentru evaluarea traducerii cu o comandă explicită (Banerjee și Lavie, 2005) a fost proiectat pentru evaluarea rezultatelor traducerii automate. Se bazează pe media armonică a preciziei și a rechemării pe unigrame, reamintirea are o ponderare mai mare decât precizia. Meteor este adesea folosit în publicațiile sumare automate (vezi și colab., 2017; Dong și colab., 2019), pe lângă roșu.

Noutate: S -a observat că unele modele abstracte se bazează prea mult pe extracție (vezi și colab., 2017; Krysci ‘nski et al.„, 2018). Prin urmare, a devenit obișnuit să se măsoare procentul de noi N-grame produse în rezumate generate.

Sursa: Traducere din hârtie MLSUM [2].

Implementarea modelelor

Pentru formarea modelului, am folosit serviciul Cloud Azure ML, care oferă un mediu complet pentru instruire, monitorizare și implementare a modelelor.

Model de rezumat automat

Am folosit mai precis Python SDK, care vă permite să gestionați întregul mediu Azureml într -un mod programatic, de la lansarea „Jobs” până la implementarea de modele.

Cu toate acestea, am încapsulat modelul nostru final într -o aplicație de balon containerizat, apoi implementate prin conducte CI/CD pe un cluster Kubernetes

Rezultatele

În primul rând, am făcut mai multe încercări, conducând modelele pe articole de 10k, care variază numărul de jetoane date la începutul modelului (512 sau 1024) și diferite arhitecturi.

Prima observație: valorile roșii și meteorii nu par foarte potrivite pentru evaluarea performanței modelelor noastre. Prin urmare, am ales să ne bazăm comparațiile doar pe scorul de noutate și selectat arhitectură favorizând rezumate mai abstracte.

După ce am împins antrenamentul modelului nostru pe 700K articole, am îmbunătățit semnificativ rezultatele și am validat o primă versiune pe care o veți găsi mai jos.

Puncte de atenție

Dincolo de performanță, acest experiment ne -a permis să evidențiem unii granițe Rezumat automat:

În prezent, dimensiunea textului în intrările modelelor de tip Transforma este limitat de capacitatea în memoria GPU -urilor. Costul în memorie fiind quadratic cu dimensiunea textului ca intrare, acest lucru reprezintă o problemă reală pentru sarcinile de rezumat automat în care textul care trebuie rezumat este adesea suficient de lung.

Este foarte dificil să găsești valori relevante pentru a evalua sarcinile de generare a textului.

Atenție greutatea extractorului : Am întâmpinat, de asemenea, mai multe probleme legate de date în sine. Principala problemă este că articolul articolului a fost adesea o parafrază sau chiar un duplicat al primelor propoziții ale articolului. Aceasta a avut consecința de a încuraja modelele noastre să fie mai extractive decât abstractive prin pur și simplu returnarea primelor propoziții ale articolului. Prin urmare, a fost necesar să se facă o lucrare de curat prin ștergerea articolelor care pozează problema pentru a evita acest tip de prejudecăți.

Un blog despre date, inteligență artificială și proiectele mele.

Rezumatul automat este să luați un text lung, sau chiar un set de texte și să generați automat un text mult mai scurt, care conține majoritatea informațiilor. Simplu ? Nu atât de mult. În primul rând, trebuie să fiți de acord cu ce informații sunt cu adevărat importante. Apoi, trebuie să le putem extrage în mod corespunzător, să le reorganizăm, toate într -un text gramatical și fără intervenție umană. Și asta este fără a conta pe numărul mare de variante de rezumate posibile !

Am putut să lucrez aproximativ un an pe această temă interesantă chiar înainte de doctorat, această postare este, prin urmare, o oportunitate pentru mine să mă cufund în acest subiect și să fac un bilanț al ultimelor inovații din domeniu.

Așadar, să luăm o imagine de ansamblu asupra acestei teme, prin crearea prin descrierea diferitelor tipuri de rezumate care există, înainte de a locui pe două tipuri de sisteme ușor în detaliu: cele din AI și rețelele neuronale și cele care sunt mai degrabă concentrate pe extragerea optimă a lui informație.

Diferitele tipuri de rezumat

Când vorbim despre rezumat, ne gândim adesea la coperta din spate a unei cărți sau la descrierea scenariului pentru un film. În general, evită să strice sfârșitul, atunci când acest lucru este tocmai ceea ce s -ar cere un instrument de rezumat automat clasic: a spune intriga, astfel încât rezumatul să fie suficient pentru a cunoaște elementele esențiale. Aici este vorba Rezumate mono-documente, Adică rezumăm doar un singur document (un film, o carte, un articol, …).

Dimpotrivă, am putea dori un Rezumat multi-documentar, că ne întâlnim mai des în contextul recenziilor de presă: dorim să avem un rezumat al celor mai importante informații, așa cum este raportat de diverse organizații de presă.

Odată ce am decis despre tipul de date pe care căutăm să le rezumăm, mono sau multi-documentar, avem alegerea între două abordări:extractiv, care constă în extragerea ca și a informațiilor înainte de a le reveni pentru a crea un rezumat și abordarea generativ, care constă în crearea de noi propoziții, care nu apar inițial în documente, pentru a avea un rezumat mai fluid și mai liber.

În plus față de aceste criterii, există diverse stiluri de rezumate, pe care nu le vom aborda aici: Actualizări rezumate care constau în rezumarea informațiilor care apar într -un nou document și care nu a fost listat până acum, rezumat, care constă în adoptarea unui unghi precis dat de utilizator, ..

AI și rețelele neuronale revoluționează rezumatul automat

Până la mijlocul anilor -2010, majoritatea rezumatelor au fost extractive. Cu toate acestea, o mare diversitate a existat deja în acești algoritmi care ar putea varia de la selecția și extragerea propozițiilor întregi până la extragerea informațiilor precise recoltate apoi în texte cu găuri pregătite în avans numite șabloane. Sosirea de noi abordări bazate pe rețele neuronale a schimbat considerabil situația. Acești algoritmi sunt mult mai eficienți decât cei anteriori pentru a genera text gramatical și fluid, cum ar fi ceea ce se poate face cu această demo GPT.

Rețelele neuronale necesită totuși o cantitate mare de date pentru a fi instruite și sunt relativ neclintite. Ei funcționează perfect pentru a genera comentarii pentru care veridicitatea are o importanță redusă, dar poate genera cu tărie informații contradictorii sau pur și simplu incorecte, care este problematică în contextul rezumatelor articolelor de presă, de exemplu. Multe articole de cercetare sunt interesate de aceste „halucinații” ale rețelelor neuronale.

Un exemplu de instrument hibrid: Potara

Rezumatul automat a fost primul subiect de cercetare în care m-a interesat și am avut ocazia să dezvolt în timpul maestrului meu un sistem hibrid de rezumat prin extracție/generare pentru o abordare multi-documente, adică a rezuma un set de documente care vorbesc care vorbesc care vorbesc din același subiect.

Ideea era să pornească de la o extracție clasică, și anume să identifice cele mai importante propoziții și să le asambleze pentru a genera un rezumat. Problema cu această abordare este că cele mai importante propoziții ar putea fi adesea îmbunătățite în continuare. De exemplu, într -un articol vorbind despre o deplasare prezidențială, sintagma „Emmanuel Macron și -a întâlnit omologul american și a discutat despre economie„ ar putea fi îmbunătățită în „Emmanuel Macron l -a întâlnit pe Joe Biden și a discutat despre economie”. Jurnaliștii evitând cu atenție repetițiile, ne găsim frecvent confruntați cu acest tip de fenomen.

Pentru a depăși acest defect, putem identifica propoziții similare prezente în diferite documente și să încercăm să le îmbinăm pentru a obține o propoziție mai bună. ANSI, din următoarele două propoziții:

  • Emmanuel Macron și -a întâlnit omologul american la Washington și a vorbit despre economie pe termen lung.
  • Președintele francez l -a cunoscut pe Joe Biden și a discutat despre economie.

Putem crea o propoziție scurtă și informativă:

  • Emmanuel Macron l -a întâlnit pe Joe Biden la Washington și a discutat despre economie.

Mai mulți pași sunt necesari pentru a obține acest rezultat: găsirea unor propoziții similare, găsirea celei mai bune fuziuni, verificarea faptului că fuziunea este mult mai bună decât o propoziție originală. Ei iau parte din multe tehnologii: Word2 cu rețele neuronale pentru a găsi propoziții similare, grafice co-cccurence pentru a le îmbina, optimizarea ILP pentru a selecta cele mai bune fuziuni.

Dacă doriți să vedeți mai multe, Potara este open-source, dar nu a fost menținută de ceva vreme. Acest proiect a servit în special ca vitrină când am fost lansat și, prin urmare, am avut documentație, teste, integrare continuă, implementare pe PYPI, ..

Care este un rezumat automat bun ?

Dacă anumite criterii par evidente și relativ simple de evaluat (de exemplu, gramaticalitatea propozițiilor), altele sunt mult mai complexe. A decide care este cea mai importantă informație a unui text este deja o sarcină foarte subiectivă în sine. Evaluează fluiditatea, alegerea potrivită a cuvintelor folosite, revine la publicarea lucrărilor și să nu vorbim despre orientarea politică pe care o poate lua un rezumat !

Noile modele generative bazate pe rețele neuronale sunt susceptibile să introducă judecăți peiorative sau calificări (sau utilizator -prieten), un efect căutat atunci când vine vorba de generarea unui critic de film, dar cu atât mai puțin atunci când vorbim despre programul unui candidat la președinție !

Prin urmare, rezumatul automat rămâne un subiect foarte activ în cercetare și poate fi pentru o clipă, în special în ceea ce privește capacitatea de a ghida rezultatul algoritmului, tocmai către un anumit sentiment, un stil specific, o colorare politică dată. În industrie, el începe doar să intre în executivi foarte specifici (rezumatul întâlnirilor, de exemplu).

Prezidențial 2022: la datele dvs !

3 Exemple de proiecte de date care urmează să fie realizate pentru alegerile prezidențiale din 2022.