Resumo do texto automático – Lincoln, Introdução ao Resumo Automático – O Blog de Dados

Um blog sobre dados, inteligência artificial e meus projetos

O resumo automático é receber um texto longo, ou mesmo um conjunto de textos e gerar automaticamente um texto muito mais curto que contém a maioria das informações. Simples ? Nem tanto. Primeiro, você tem que concordar que informações são realmente importantes. Então, devemos ser capazes de extraí -los adequadamente, reorganizá -los, tudo em um texto gramatical e sem intervenção humana. E isso é sem contar com o grande número de variantes de possíveis resumos !

Resumo do texto automático

Com a explosão de coleta e armazenamento de textura, a necessidade de analisar e extrair informações relevantes dessa massa é cada vez mais presente.

Além disso, o boom em modelos de aprendizado profundo para processamento automático de linguagem natural (TALN) facilitou o uso de dados textuais em problemas operacionais. O resumo do texto automático, da mesma maneira que a pergunta de resposta, a análise de similaridade, a classificação do documento e outras tarefas vinculadas ao Taln fazem parte desses problemas.

É neste contexto que o Inovação de laboratório De Lincoln decidiu realizar o trabalho no resumo do texto automático. Esses trabalhos tornaram possível estabelecer uma referência dos modelos de resumo automáticos disponíveis para o idioma Francês, para causar nosso próprio modelo e finalmente colocá -lo em produção.

�� Treinamento modelo

O resumo automático mundial

Dados

Antes que pudéssemos começar nosso trabalho, primeiro tivemos que criar um banco de dados para aprender modelos de resumo automático. Recuperamos itens de imprensa de vários sites de notícias francesos. Esta base contém ~ 60k artigos e é atualizada continuamente.

Estado da arte

Os algoritmos de resumo automático podem ser separados em duas categorias: resumos extrativo e resumos abstrativo. No quadro extrativo, Os resumos são construídos a partir de frases extraídas do texto enquanto os resumos abstrativo são gerados a partir de novas frases.

Os modelos de resumo automáticos são bastante comuns em inglês, mas são muito menos em francês.

Métricas

Para a avaliação de modelos, usamos as seguintes métricas:

VERMELHO : Sem dúvida, a medição mais frequentemente relatada nas tarefas de resumo, o subestudo orientado para recall para avaliação esbelir (Lin, 2004) calcula o número de n-gramas semelhantes entre o resumo avaliado e o resumo de referência humana.

Meteoro: A métrica para avaliação da tradução com ordem explícita (Banerjee e Lavie, 2005) foram projetados para a avaliação dos resultados da tradução automática. É baseado na média harmônica de precisão e recall nos unigramas, o recall de ter uma ponderação maior que a precisão. O meteoro é frequentemente usado em publicações de resumo automático (ver et al., 2017; Dong et al., 2019), além de vermelho.

Novidade: Percebeu -se que alguns modelos abstratos se baseiam demais na extração (ver et al., 2017; Krysci ‘Nski et al.‘, 2018). Portanto, tornou-se comum medir a porcentagem de novos gramas produzidos nos resumos gerados.

Fonte: Tradução do MLSUM Paper [2].

A implantação de modelos

Para treinamento modelo, usamos o serviço Cloud Azure ML, que fornece um ambiente completo para treinamento, monitoramento e implantação de modelos.

Modelo de resumo automático

Usamos com mais precisão o Python SDK, que permite gerenciar todo o ambiente AzureML de maneira programática, desde o lançamento de “Jobs” até a implantação de modelos.

No entanto, encapsulamos nosso modelo final em um aplicativo de frasco de contêiner e depois implantado via pipelines CI/CD em um cluster de Kubernetes

Os resultados

Primeiro de tudo, fizemos várias tentativas, liderando os modelos em 10k artigos, variando o número de tokens dados no início do modelo (512 ou 1024) e diferentes arquiteturas.

Primeira observação: as métricas vermelhas e meteoras não parecem muito adequadas para a avaliação de desempenho de nossos modelos. Portanto, escolhemos basear nossas comparações apenas na pontuação da novidade e selecionadas arquitetura favorecendo resumos mais abstratos.

Depois de empurrar o treinamento do nosso modelo em 700k itens, melhoramos significativamente os resultados e validamos uma primeira versão que você encontrará abaixo.

Pontos de atenção

Além do desempenho, esse experimento nos permitiu destacar alguns limites Resumo automático:

Atualmente, o tamanho do texto em entradas dos modelos de tipo Transformar é limitado pela capacidade de memória das GPUs. O custo na memória sendo quadrático com o tamanho do texto como entrada, isso representa um problema real para as tarefas de resumo automático em que o texto a ser resumido geralmente é longo o suficiente.

É muito difícil encontrar métricas relevantes para avaliar tarefas de geração de texto.

Tome cuidado o peso do extrator : Também encontramos vários problemas relacionados aos dados em si mesmos. O principal problema é que o artigo do artigo era frequentemente uma paráfrase ou mesmo uma duplicata das primeiras frases do artigo. Isso teve a conseqüência de incentivar nossos modelos a serem mais extrativos do que abstratos, simplesmente retornando as primeiras frases do artigo. Portanto, era necessário fazer um trabalho de curadoria, excluindo os artigos que apresentam problema para evitar esse tipo de viés.

Um blog sobre dados, inteligência artificial e meus projetos.

O resumo automático é receber um texto longo, ou mesmo um conjunto de textos e gerar automaticamente um texto muito mais curto que contém a maioria das informações. Simples ? Nem tanto. Primeiro, você tem que concordar que informações são realmente importantes. Então, devemos ser capazes de extraí -los adequadamente, reorganizá -los, tudo em um texto gramatical e sem intervenção humana. E isso é sem contar com o grande número de variantes de possíveis resumos !

Consegui trabalhar por cerca de um ano sobre esse tema emocionante pouco antes do meu doutorado, este post é, portanto, uma oportunidade para eu mergulhar nesse assunto e fazer um balanço das mais recentes inovações no domínio.

Então, vamos ter uma visão geral desse tema, criando descrevendo os diferentes tipos de resumos que existem, antes de respirar em dois tipos de sistemas ligeiramente em detalhes: aqueles de IA e redes neurais e aquelas que são focadas na extração ideal de Informação.

Os diferentes tipos de resumo

Quando falamos sobre resumo, geralmente pensamos na contracapa de um livro ou na descrição do script para um filme. Geralmente, eles evitam estragar o fim, quando é exatamente isso que alguém pediria uma ferramenta de resumo automático clássico: para dizer a intriga, para que o resumo possa ser suficiente para saber o essencial. Aqui está sobre Resumos de Mono-documentos, Ou seja, apenas resumimos um único documento (um filme, um livro, um artigo, …).

Pelo contrário, poderíamos querer um Resumo multi-documentário, que nos encontramos com mais frequência no contexto das análises da imprensa: queremos ter um resumo das informações mais importantes, conforme relatado por várias organizações de imprensa.

Depois de decidirmos sobre o tipo de dados que procuramos resumir, mono ou multi-documentário, temos a escolha entre duas abordagens: oextrativo, que consiste em extrair como as informações antes de colocá -las de volta para criar um resumo, e a abordagem generativo, que consiste em criar novas frases, que não aparecem originalmente nos documentos, a fim de ter um resumo mais fluido e mais livre.

Além desses critérios, existem vários estilos de resumos, que não abordaremos aqui: Atualizar resumos que consistem em resumir as informações que aparecem em um novo documento e que não foram listadas até agora, resumidas direcionadas que consistem na adoção de um ângulo preciso Dado pelo usuário, ..

IA e redes neurais revolucionam o resumo automático

Até meados de 2010s, a maioria dos resumos era extrativa. No entanto, a grande diversidade já existia nesses algoritmos que poderiam variar desde a seleção e extração de frases inteiras até a extração de informações precisas recolvadas e depois em textos com orifícios preparados com antecedência chamados modelos. A chegada de novas abordagens baseadas em redes neurais mudou consideravelmente a situação. Esses algoritmos são muito mais eficazes do que os anteriores para gerar texto gramatical e fluido, como o que pode ser feito com esta demonstração do GPT.

As redes neurais, no entanto, exigem grandes quantidades de dados para serem treinadas e são relativamente desligadas. Eles trabalham perfeitamente para gerar comentários para os quais a veracidade é de pouca importância, mas fortemente pode gerar informações contraditórias ou simplesmente incorretas, que são problemáticas no contexto dos resumos dos artigos de imprensa, por exemplo,. Muitos artigos de pesquisa estão interessados ​​nessas “alucinações” de redes neurais.

Um exemplo de uma ferramenta híbrida: Potara

O resumo automático foi o primeiro assunto de pesquisa em que eu estava interessado, e tive a oportunidade de desenvolver durante meu mestre um sistema híbrido de resumo por extração/geração para uma abordagem de vários documentos, ou seja, resumir um conjunto de documentos falando do mesmo assunto.

A idéia era começar de uma extração clássica, a saber, identificar as frases mais importantes e montá -las para gerar um resumo. O problema com essa abordagem é que as frases mais importantes podem ser mais aprimoradas. Por exemplo, em um artigo falando de um deslocamento presidencial, a frase “Emmanuel Macron conheceu seu colega americano e discutiu a economia” poderia ser melhorada em “Emmanuel Macron conheceu Joe Biden e discutiu a economia”. Jornalistas evitando cuidadosamente os ensaios, nos encontramos frequentemente confrontados com esse tipo de fenômeno.

Para superar esse defeito, podemos identificar frases semelhantes presentes em diferentes documentos e tentar mesclá -los para obter uma frase melhor. ANSI, das duas frases a seguir:

  • Emmanuel Macron conheceu seu colega americano em Washington e falou sobre economia.
  • O presidente francês conheceu Joe Biden e discutiu economia.

Podemos criar uma frase curta e informativa:

  • Emmanuel Macron conheceu Joe Biden em Washington e discutiu economia.

Várias etapas são necessárias para alcançar esse resultado: encontrar frases semelhantes, encontrar a melhor fusão, verificar se a fusão é muito melhor do que uma frase original. Eles participam de muitas tecnologias: Word2 com redes neurais para encontrar frases semelhantes, gráficos de co-ccurence para mesclar, otimização do ILP para selecionar as melhores fusões.

Se você quiser ver mais, Potara é de código aberto, mas não é mantido por um tempo. Este projeto serviu notavelmente como uma vitrine quando fui liberado e, portanto, tive documentação, testes, integração contínua, implantação no Pypi, ..

O que é um bom resumo automático ?

Se certos critérios parecerem óbvios e relativamente simples de avaliar (a gramaticalidade das frases, por exemplo), outros são muito mais complexos. Decidir qual a informação mais importante de um texto já é uma tarefa muito subjetiva em si. Avalie a fluidez, a escolha certa das palavras usadas, volta ao trabalho de publicação e não vamos falar sobre a orientação política que um resumo pode levar !

Os novos modelos generativos baseados em redes neurais provavelmente introduzirão julgamentos ou qualificadores pejorativos (ou amigável), um efeito procurado quando se trata de gerar um crítico de cinema, mas muito menos ao falar sobre o programa de um candidato presidencial !

O resumo automático permanece, portanto, um assunto muito ativo na pesquisa e pode ser por um momento, principalmente no que diz respeito à capacidade de orientar o resultado do algoritmo, precisamente para um sentimento específico, um estilo específico, uma coloração política dada dada. No setor, ele apenas começa a entrar em executivos muito específicos (resumo das reuniões, por exemplo).

Presidencial 2022: para seus dados !

3 exemplos de projetos de dados a serem realizados para as eleições presidenciais de 2022.