Introdução às Técnicas de Resumo Extractivo e Abstrato

Tutoriais

PyTorch

Introdução

Na ciência dos dados, e especialmente no Processamento de Linguagem Natural, a resumo tem sido e sempre foi um assunto de interesse intenso. Embora os métodos de resumo de texto tenham existido por algum tempo, os últimos anos têm visto desenvolvimentos significativos no processamento de linguagem natural e aprendizagem profunda. Existem imensos artigos sendo publicados sobre o assunto por gigantes da internet, como o recente ChatGPT. Embora haja muito trabalho sendo feito neste tópico de estudo, há muito pouco escrito sobre implementações práticas de resumo dirigido por AI. A dificuldade de interpretar afirmações amplas e abrangentes é um obstáculo para o resumo efetivo.

Resumir um artigo noticioso e um relatório de lucros financeiros são duas tarefas diferentes. Quando se trata de características de texto que variam em comprimento ou assunto (tecnologia, esportes, finanças, viagens, etc.), o resumo se torna um trabalho de ciência de dados desafiador. É essencial abordar o trabalho básico no resumo teórico antes de mergulhar em uma visão geral de aplicações.

Resumo Extrativo

O processo de resumo extraído envolve escolher as frases mais relevantes de um artigo e organizá-las sistematicamente. As frases que compõem o resumo são tiradas de forma literal do material fonte.
Sistemas de resumo extraído, como o conhecemos hoje, giram em torno de três operações fundamentais:

Construção de uma representação intermediária do texto de entrada

As representações baseadas em representação incluem exemplos como representação de tópicos e representação de indicadores. Para entender os assuntos mencionados no texto, a representação de tópicos converte o texto em uma representação intermediária.

Avaliando as frases com base na representação

Ao gerar a representação intermediária, cada frase é atribuída uma pontuação de relevância. Quando se usa um método que depende da representação de tópicos, a pontuação da frase reflete quanto ela explica conceitos críticos no texto. Na representação de indicadores, a pontuação é calculada por meio da agregação da evidência de diferentes indicadores ponderados.

Seleção de um resumo compostso por várias frases

Para gerar um resumo, o software de resumo seleciona as k primeiras frases. Por exemplo, alguns métodos usam algoritmos avultados para escolher e selecionar quais frases são as mais relevantes, enquanto outros podem transformar a seleção de frases em um problema de otimização no qual um conjunto de frases é selecionado sob a condição de que deve maximizar a importância e a coerência global e minimizar a quantidade de informação redundante.

Vamos mergulhar mais fundo nas metodologias que mencionamos:

Métodos de Representação de Tópicos

Palavras-tópicas: Usando este método, você pode encontrar termos relacionados ao tópico em um documento de entrada. A importância de uma frase pode ser calculada de duas maneiras: primeiro, como uma função do número de assinaturas de tópico que ela inclui; segundo, como uma fração das assinaturas de tópico que ela contém.
Enquanto o primeiro método dá pontuações mais altas para frases mais longas com mais palavras, o segundo método mede a densidade das palavras-tópicas.

Aproximadas com frequência: Por meio deste método, palavras são concedidas importância relativa. Se o termo encaixa no tópico, ele ganha 1 ponto; caso contrário, chega a zero. Dependendo da implementação, as ponderações podem ser contínuas. Representações de tópicos podem ser alcançadas usando um de dois métodos:

Probabilidade de Palavra: Ela considera apenas a frequência de uma palavra para indicar sua importância. Para calcular a probabilidade de uma palavra w, dividimos a frequência com que ela ocorre, f(w), pela quantidade total de palavras, N.

Fonte

A importância média das palavras em uma frase dá a importância da frase quando usando probabilidades de palavra.

TFIDF (Termo de Frequência em Relação à Frequência Inversa do Documento): Este método é uma melhoria sobre a abordagem de probabilidade de palavra. Aqui, as ponderações são determinadas usando o TF-IDF. A técnica de Termo de Frequência em Relação à Frequência Inversa do Documento (TFIDF) dá menos importância a termos que frequentemente aparecem em a maioria dos documentos. O peso de cada palavra w em documento d é calculado da seguinte forma:

Fonte

onde fd (w) é a frequência do termo w no documento d,
fD (w) é o número de documentos que contêm a palavra w, e |D| é o número de documentos na coleção D.

Análise Semântica Latente: Análise semântica latente (LSA) é um método não-supervisionado para extrair uma representação de semântica de texto com base em palavras observadas. O processo de LSA começa com a construção de uma matriz de termo-sentença (n por m), onde cada linha representa uma palavra de entrada (n-palavras) e cada coluna representa uma sentença (m sentenças). Na matriz, o peso da palavra i na sentença j é definido pela entrada aij. De acordo com a técnica TFIDF, cada palavra em uma sentença é atribuída um certo peso, com zero sendo atribuído a termos que não estão incluídos na sentença.

Abordagens de Representação de Indicador

Métodos Baseados em Grafos

Métodos gráficos, influenciados pelo algoritmo PageRank, representam os documentos como um grafo conectado. As frases formam os vértices do grafo, e as arestas que conectam as frases mostram o grau de relação entre duas frases. Um método frequentemente usado para ligar dois vértices é avaliar o grau de similaridade entre duas frases, e se o grau de similaridade for maior do que um certo limiar, os vértices são conectados. Ambos os resultados são possíveis com esta representação de grafo. Primeiro, as partições do grafo (sub-grafos) definem categorias individuais de informação abordadas pelos documentos. O segundo resultado é que as frases-chave do documento são destacadas. Frases conectadas a muitas outras frases na partição podem ser o centro do grafo e são mais prováveis de serem incluídas na resumo. Ambos os sumários de documento único e de documentos múltiplos podem beneficiar do uso de técnicas baseadas em grafos.

Aprendizado de Máquina

As técnicas de aprendizado de máquina vêem o problema de resumo como um desafio de classificação. Os modelos tentam categorizar as frases em categorias de resumo e não-resumo com base em suas características. Temos um conjunto de treinamento composto por documentos e resumos extraídos e avaliados por pessoas, do qual treinaremos nossos algoritmos. Geralmente, isso é feito usando Naive Bayes, Árvore de Decisão ou Máquina de Apoio Vetorial.

Resumo Abstrato

Em contraste com a resumo extraído, a abstracção é um método ainda mais eficaz. A capacidade de criar frases únicas que convelem informações chave de fontes de texto contribui para esta ascensão de popularidade.
Um resumidor abstrato apresenta o material de forma lógica, bem organizada e gramaticalmente correta. A qualidade de um resumo pode ser substancialmente melhorada fazendo-o mais legível ou melhorando sua qualidade lingüística. (inclua imagem).
Existem duas abordagens: A abordagem baseada em estrutura e a abordagem baseada em semântica.

ABORDAGEM BASEADA EM ESTRUTURA

Numa abordagem estruturada primeiramente baseada, as informações mais importantes do documento(s) são codificadas usando schemas de características psicológicas como modelos, regras de extração e estruturas alternativas, incluindo árvore, ontologia, cabeçalho e corpo, regra e estrutura baseada em grafo. A seguir, vamos ler sobre algumas das muitas abordagens que são integradas nesta estratégia.

Fonte

Métodos baseados em árvores

Neste método, o conteúdo de um documento é representado como uma árvore de dependência. A seleção de conteúdo para um resumo pode ser realizada por meio de várias outras técnicas, como um programa de algoritmo de interseção de tópicos ou um que utilize alinhamento nativo tentativo entre frases análisadas. Esta abordagem emprega um gerador de linguagem ou um algoritmo associado para a geração de resumos. Neste artigo, os autores oferecem um método de fundição de sentenças que usa alinhamento multicSequência local bottom-up para encontrar as frases de informação comum. Sistemas de resumo de multigênese usam uma técnica chamada fundição de sentenças.

Neste método, um conjunto de documentos é usado como entradas, processado usando um algoritmo de seleção de tópico para extrair o tópico central, e depois é usado um algoritmo de aglomerativo para classificar as frases em ordem de importância. Depois que as sentenças forem arranjadas, elas são fundidas usando a fundição de sentenças, e um resumo estatístico é gerado. O método estruturado codifica as informações mais importantes do documento(s) usando esquemas de características psicológicas como modelos, regras de extração e estruturas alternativas como árvore, ontologia, cabeçalho e corpo, regra e estrutura baseada em grafo.

Fonte

Métodos baseados em modelos

Neste método, uma guia é usada para representar todo o documento. Padrões linguísticos ou critérios de extração são comparados para identificar trechos de texto que podem ser mapeados para as guias de slot. Estes trechos de texto são indicadores de unidades de área no conteúdo do esquema. Este artigo sugere dois métodos (resumo de documento único e múltiplos documentos) para resumir documentos. Para criar resumos e abstractos dos documentos, eles seguiram os métodos descritos em GISTEXTER.

Implementado para extração de informação, GISTEXTER é um sistema de resumo que identifica informação relacionada ao tópico no texto de entrada e a converte em entradas de banco de dados; as frases são então adicionadas ao resumo dependendo das solicitações do usuário.

Fonte

Métodos baseados em ontologias

Muitos investigadores tentaram melhorar a eficácia das resumos usando ontologias (base de conhecimento). A maioria dos documentos na Internet tem um domínio comum, o que significa que todos tratam do mesmo assunto geral. Uma ontologia é uma representação poderosa da estrutura de informação única de cada domínio.
Este artigo propõe o uso de uma ontologia fuzzy, que modela a incerteza e descreve com precisão o conhecimento do domínio, para resumir notícias chinesas. Nesta metodologia, os especialistas do domínio primeiro definem a ontologia do domínio para eventos noticiosos, e depois a fase de preparação de documentos extrai palavras semânticas do corpus de notícias e do dicionário de notícias chinesas.

Método de expressão de título e corpo

Este método envolve a reescrita da frase de título realizando operações em expressões com o mesmo pedaço de cabeça sintático na frase de título e corpo. Usando a análise sintática de pedaços de expressão, Tanaka sugeriu uma técnica para resumir notícias de rádio. Métodos de fusão de frases são usados para inferir o fundamento deste conceito.

Resumir transmissões de notícias envolve localizar frases compartilhadas pelas partes de capa e corpo, em seguida, inserir e substituir essas frases para produzir um resumo através da revisão de sentenças. Primeiro, um analisador sintático é aplicado às partes de capa e corpo. A seguir, são identificadas as pares de procura de disparo, e finalmente, as frases são alinhadas usando vários critérios de similaridade e alinhamento. A última etapa pode ser tanto uma inserção quanto uma substituição ou ambas.

O processo de inserção envolve escolher um ponto de inserção, verificar redundâncias e verificar o discurso para garantir coerência interna, garantindo coherença e eliminando redundâncias. O passo de substituição fornece informação adicional substituindo a frase do corpo na parte de capa.

Método baseado em regras

Nesta técnica, os documentos a serem resumidos são representados em termos de classes e listagem de aspectos. O módulo de escolha de conteúdo seleciona o candidato mais eficaz entre aqueles gerados por regras de extração de dados para responder a um ou muitos aspectos de uma categoria. Finalmente, padrões de geração são usados para a geração de sentenças de resumo.

Para identificar substantivos e verbos semanticamente relacionados, Pierre-Etienne et al. propuseram um conjunto de critérios para extração de informação. Uma vez extraída, as informações são enviadas para a etapa de seleção de conteúdo, que tenta filtrar candidatos misturados. Isso é usado para estrutura de sentença e palavras em padrões de geração direta. Depois de geradas, é executada a resumo guiado pelo conteúdo.

Métodos baseados em grafos

Muitos pesquisadores usam uma estrutura de dados de grafo para representar documentos de linguagem. Grafos são uma escolha popular para representar documentos na comunidade de estudos lingüísticos. Cada nó no sistema representa uma unidade de palavra, que, juntamente com arestas direcionadas, define a estrutura de uma frase. Para melhorar o desempenho da Summarization, Dingding Wang et al. propuseram sistemas de resumo de documentos múltiplos que usam uma ampla gama de estratégias, como o método baseado no centroide, o método baseado em grafo, etc., para avaliar vários métodos de combinação de base, como pontuação média, classificação média, contagem de Borda, agregação de médias, etc.
Uma metodologia de consenso com pesos únicos é desenvolvida para coletar os resultados de diferentes estratégias de resumo. Na abordagem baseada em semântica, uma ilustração linguística de um documento ou documentos é usada para alimentar um sistema de geração de linguagem natural (NLG). Esta técnica se destaca por identificar frases nominales e frases verbais através de dados linguísticos.

ABORDAGEM BASEADA EM SEMÂNTICA

Abordagens baseadas em semântica usam uma ilustração linguística de um documento para alimentar um sistema de geração de linguagem natural (NLG). Este método processa dados linguísticos para identificar frases nominales e frases verbais.

Fonte

Modelo semântico multimodal: Nesta abordagem, é criado um modelo lingüístico que captura conceitos e relações entre ideias para descrever o conteúdo de documentos multimodais, como texto e imagens. As ideias chave são avaliadas usando vários critérios, e os conceitos selecionados são então expressos como frases para formar um resumo.
Método baseado em itens de informação: Nesta abordagem, em vez de usar frases dos documentos de origem, é usada uma representação abstrata desses documentos para gerar o conteúdo do resumo. A representação abstrata é um item de informação, a parte mais pequena de informação coerente em um texto.
Modelo de Grafo Semântico: Esta técnica visa resumir um documento construindo um grafo semântico rico (RSG) para o documento inicial, depois reduzindo o grafo lingüístico criado e gerando o resumo abstrato final a partir do grafo lingüístico reduzido.

Fonte

Durante o módulo de geração de Grafo Semântico Rico, uma série de regras heurísticas são aplicadas ao grafo semântico rico gerado para reduzi-lo, mesclando, excluindo ou consolidando os nós do grafo.

Modelo de Representação Textual Semântica: Esta técnica analisa o texto de entrada usando a semântica das palavras, em vez da sintaxe/estrutura do texto.

Estudos de casos em negócios

Programação de linguagem computacional: Foram realizados muitos esforços para desenvolver tecnologia AI capaz de escrever código e desenvolver websites de forma independente. No futuro, programadores poderiam ser capazes de contar com especializados “resumidores de código” para extrair os elementos essenciais de projetos novos.
Ajudando as pessoas com deficiências físicas: As pessoas com dificuldade de ouvir podem achar que o resumo lhes ajuda a seguir melhor o conteúdo com o avanço da tecnologia de voz para texto.
Conferências e outras reuniões de vídeo: Com a expansão do trabalho remoto, a capacidade de gravar ideias e conteúdo importantes das interações torna-se cada vez mais necessária. Ficaria fantástico se as sessões de sua equipe pudessem ser resumidas usando um método de voz para texto.
A busca de patentes: Encontrar informações de patentes relevantes pode ser tempo-consumindo. Um gerador de resumo de patentes pode poupar tempo, seja você fazendo pesquisa de inteligência de mercado ou preparando para registrar uma nova patente.
Livros e literatura: Os resumos são úteis porque dão aos leitores uma visão concisa do conteúdo que podem esperar the um livro antes de decidir se comprá-lo.
Publicidade através de mídias sociais: Organizações que criam relatórios brancos, e-books e blogs da empresa podem usar o resumo para tornar seu trabalho mais digerível e compartilhável em plataformas como Twitter e Facebook.
Pesquisa econômica: A indústria de bancos de investimento investe em grandes quantidades de dinheiro em aquisição de dados para uso em decisões, como negociação de ações computadorizada. qualquer analista financeiro que passa todo dia a pesquisar dados de mercado e notícias eventualmente irá chegar à sobrecarga de informação. Documentos financeiros, como relatórios de resultados e notícias financeiras, poderiam se beneficiar de sistemas de resumo que permitam aos analistas extrair sinais de mercado do conteúdo rapidamente.
Divulgação de seu negócio usando Optimização para Motor de Busca: As avaliações de optimização de motores de busca (SEO) necessitam de um conhecimento profundo dos tópicos discutidos no conteúdo dos concorrentes. Isso é de suma importância considerando as recentes modificações no algoritmo do Google e o subsequente foco na autoridade do assunto. A capacidade de resumir rapidamente vários documentos, identificar comuns e procurar informações críticas pode ser uma ferramenta de pesquisa poderosa.

Conclusão

Embora o resumo abstrato seja menos confiável que os métodos extraídos, ele apresenta mais promessas para a produção de resumos que se ajustam à maneira como os seres humanos os escreveriam. Portanto, é provável que emerjam nesta área uma série de novas técnicas computacionais, cognitivas e linguísticas.

Referências

Source:
https://www.digitalocean.com/community/tutorials/extractive-and-abstractive-summarization-techniques