抽取式和生成式摘要技术简介

教程

PyTorch

简介

在数据科学，尤其是自然语言处理领域，总结一直是一个备受关注的话题。尽管文本摘要方法已经存在一段时间，但近年来在自然语言处理和深度学习方面取得了重大进展。在这个主题上，像最近的ChatGPT这样的互联网巨头发表了许多论文。尽管在这个研究主题上做了大量工作，但关于AI驱动摘要的实用实现的讨论却很少。解析宽泛陈述的难度是有效总结的一个障碍。

摘要新闻文章和财务利润报告是两件不同的事情。当处理长度或主题不同的文本特征（如科技、体育、金融、旅游等）时，摘要变成了一个具有挑战性的数据科学任务。在深入了解应用之前，总结理论的基础工作是必不可少的。

提取式摘要

提取式摘要的过程包括从文章中选取最相关的句子，并系统地组织它们。摘要中的句子直接来源于原始材料。
现有的提取式摘要系统围绕三个基本操作展开：

构建输入文本的中间表示

基于表示的方法例如主题表示和指示符表示。为了理解文中提到的主题（们），主题表示将文本转换为中间表示。

根据表示对句子进行评分

在生成中间表示的时候，每个句子都会被赋予一个重要性评分。当使用基于主题表示的方法时，句子的得分反映了它如何有效地阐明文本中的关键概念。在指示符表示中，评分是通过聚合不同加权指标的证据来计算的。

选择包含几句话的摘要

为了生成摘要，摘要生成软件会选择最k句话。例如，一些方法使用贪心算法来挑选最相关的句子，而其他方法可能将句子选择转化为一个优化问题，在这个问题中，根据一定的规定选择一组句子，以最大化整体重要性和连贯性，同时最小化冗余信息的数量。

让我们更深入地了解我们提到的方法：

话题表示方法

话题词：使用这种方法，你可以在输入文档中找到与话题相关的术语。句子的显著性可以通过两种方式计算：首先，作为一个函数，它包括的话题签名数量；其次，作为一个比例，它包含的话题签名数量。
尽管第一种方法会给包含更多单词的较长句子更高的分数，但第二种方法衡量的是话题词的密度。

频率驱动方法：通过这种方法，赋予单词相对重要性。如果术语符合主题，则得1分；否则，得零。根据实现方式的不同，权重可能是连续的。主题表示可以使用两种方法中的一种实现：

词概率：它只用词的频率来表示其重要性。为了计算词w的可能性，我们将它出现的频率f(w)除以总词数N。

来源

使用词概率，句子中单词的平均重要性给出了句子的重要性。

TFIDF（词频逆文档频率）：这是对词概率方法的改进。在这里，权重是通过使用TF-IDF方法确定的。词频逆文档频率（TFIDF）技术赋予经常出现在大多数文档中的术语较少的重视。文档d中每个词w的权重如下计算：

来源

其中fd(w)是词w在文档d中的词频，fD(w)包含词w的文档数量，|D|是集合D中文档的数量。

潜在语义分析: 潜在语义分析 (LSA) 是一种基于观察到的词语来提取文本语义表示的无监督方法。 LSA 过程从构建一个词语-句子矩阵（n x m）开始，其中每一行代表输入中的一个词语（n 个词语），每一列代表一个句子（m 个句子）。在矩阵中，词语 i 在句子 j 中的权重由条目 aij 定义。根据 TFIDF 技术，每个句子中的每个词语都被赋予一定的权重，未包含在句子中的词语的权重为零。

指示器表示方法

基于图的方法

图方法受到PageRank算法的影响，将文档表示为一个连通图。句子形成图的顶点，连接句子的边显示了两个句子之间的相关程度。链接两个顶点的一种常用方法是评估两个句子之间的相似度，如果相似度高于某个阈值，则连接顶点。在这种图表示中，有两种可能的结果。首先，图的划分（子图）定义了文档涵盖的信息的个人类别。第二种结果是文档的关键句子被突出显示。在分区中连接到许多其他句子的句子可能是图的中心，并且更有可能包含在摘要中。单文档和多文档摘要在使用基于图的技术时都可以受益。

机器学习

机器学习技术将摘录问题视为分类挑战。模型尝试根据它们的特征将句子分类为摘要和非摘要类别。我们有一个训练集，包括文档和人工审查的提取摘要，我们可以用它来训练我们的算法。这通常使用朴素贝叶斯、决策树或支持向量机来完成。

摘要式总结

与提取式总结相比，摘要式总结是一种更有效的方法。这种方法能够从文本来源创建独特的句子，传达关键信息，从而使其越来越受欢迎。
摘要式总结者以逻辑性强、组织有序、语法正确的方式呈现材料。通过提高可读性或改善语言质量，可以显著提高摘要的质量。（包含图片）。
有两种方法：基于结构的方法和基于语义的方法。

结构化方法

在结构化的方法中，首先将文档中的最重要信息编码为心理特征架构，如模板、提取规则和替代结构，包括树、本体、导言和正文、规则以及基于图的结构。接下来，我们将阅读一些整合到这一策略中的不同方法。

来源

基于树的方法

在这种方法中，文档的内容被表示为一个依赖树。 outline的内容选择可以通过一些其他技术来完成，比如主题交集算法程序，或者利用解析句子之间的自然对齐尝试。这种方法使用语言生成器或关联度算法来生成outline。在这篇论文中，作者提出了一种使用自底向上局部多序列对齐来寻找共同信息短语的句子融合方法。多基因总结系统使用一种称为句子融合的技术。

在这种方法中，一组文档作为输入，使用主题选择算法提取中心主题，然后使用聚类算法对短语按重要性排序。句子排列后，使用句子融合进行融合，生成统计摘要。结构化方法使用诸如模板、提取规则等心理特征模式，以及树、本体、导言和正文、规则、基于图的结构等替代结构来编码文档（们）最重要的数据。

来源

基于模板的方法

在这种方法中，使用一个指南来表示整个文档。将语言模式或提取标准与指南槽位的文本片段进行比较，以识别可以映射到指南槽位的文本片段。这些文本片段是大纲内容的区域单位指示器。本文提出了两种文档摘要在（单文档和多文档摘要在）的方法。为了从文档中创建摘录和摘要，他们遵循了GISTEXTER中描述的方法。

用于信息提取的GISTEXTER是一个摘要系统，它识别输入文本中的主题相关信息并将其转换为数据库条目；然后根据用户请求将句子添加到摘要中。

来源

基于本体的方法

许多研究人员试图使用本体（知识库）来提高摘要的有效性。大多数互联网文档都有一个共同的领域，这意味着它们都涉及相同的一般主题。本体是每个领域独特信息结构的强大表示。
此论文提出使用模糊本体，其模拟不确定性并准确描述领域知识，来总结中文新闻。在此方法中，领域专家首先为新闻事件定义领域本体，然后文档准备阶段从新闻语料库和中文新闻词典中提取语义词。

引导和主体短语方法

此方法涉及通过对引导句和主体句中具有相同句法头块的短语进行操作（插入和替换）来重写引导句。利用短语片段的句法分析，田中提出了一种总结广播新闻的技术。句子融合方法用于推断这一概念的基础。

总结新闻广播 involves 找到头条和正文部分共享的短语，然后通过句子修订插入和替换这些短语以产生摘要。首先，对头条和正文部分应用句法解析器。接下来，识别触发搜索对，最后使用各种相似性和对齐标准对短语进行对齐。最后一个阶段可能是插入、替换或两者都有。

插入过程包括选择插入点、检查冗余以及检查语篇内部的连贯性，以确保连贯性和消除冗余。替换步骤通过替换正文部分在头条中的短语来提供更多信息。

基于规则的方法

在这种技术中，要总结的文档以类和方面列表的形式表示。内容选择模块从数据提取规则生成的候选项中选择最有效的项，以回答一个或多个类别的方面。最后，使用生成模式生成大纲句子。

为了识别语义上相关的名词和动词，Pierre-Etienne等提出了一组信息提取的标准。一旦提取数据，就会发送到内容选择步骤，该步骤努力过滤掉混合候选人。它用于生成简单句结构和直接词汇模式。生成后，执行内容引导的摘要。

基于图的方法

许多研究者使用图数据结构来表示语言文档。图在语言学研究社区中是表示文档的一个流行选择。系统中的每个节点代表一个单词单位，加上有向边，定义了句子的结构。为了增强摘要的性能，王钉钉等提出了使用多种策略的多文档摘要系统，如基于质心的方法、基于图的方法等，以评估各种基线组合方法，如平均分数、平均排名、Borda计数、中位数聚合等。
一种独特的加权共识方法被开发出来，用于收集不同摘要策略的结果。在基于语义的途径中，使用文档或文档的语言描述来喂养自然语言生成（NLG）系统。这种技术专门通过语言数据来识别名词短语和动词短语。

基于语义的途径

基于语义的途径使用文档的语言描述来喂养自然语言生成（NLG）系统。该方法处理语言数据以识别名词短语和动词短语。

来源

多模态语义模型：在这种方法中，创建了一个语言学模型，用于捕捉概念及其之间的关系，以描述文本和图像等的多模态文档的内容。关键思想使用几个标准进行评分，然后选择的概念用句子表达出来，形成摘要。
基于信息项的方法：在这种方法中，不是使用供应文档中的句子，而是使用这些文档的抽象表示来生成摘要内容。摘要描述是一种信息项，是文本中连贯信息的最小部分。
语义图模型：这种技术旨在通过为初始文档构建丰富语义图（RSG），然后减少创建的语言学图并从减少的语言学图中生成最终的抽象概要。

来源

在丰富语义图生成模块期间，对生成的丰富语义图应用一组启发式规则，通过合并、删除或巩固图节点来减少图。

语义文本表示模型：这种技术分析输入文本时使用单词的语义，而不是文本的语法/结构。

商业案例研究

计算机语言编程：人们已经做了许多努力，以开发能够独立编写代码和开发网站的人工智能技术。将来，程序员可能能够依靠专门的“代码摘要器”从新型项目中提取要点。
帮助身体残疾者：那些听力有困难的人可能会发现，随着语音到文本技术的进步，摘要可以帮助他们更好地理解内容。
会议和其他视频会议：随着远程工作的扩展，记录互动中的重要思想和内容的能力越来越受到需求。如果您的团队会议能够使用语音到文本的方法进行总结，那将是非常好的。
专利搜索：寻找相关的专利信息可能需要花费大量时间。无论您是进行市场情报研究还是准备注册新的专利，专利摘要生成器都可能为您节省时间。
书籍和文学：摘要之所以有用，是因为它们在读者决定是否购买一本书之前，为读者提供了书籍内容的简洁概述。
通过社交媒体进行广告宣传：创建白皮书、电子书和公司博客的组织可能会使用摘要，以使它们的工作更易于消化和分享，在Twitter和Facebook等平台上。
经济研究：投资银行业在数据获取上投入巨资，以用于做出决策，如计算机化股票交易。任何整天沉迷于市场数据和新闻的金融分析师最终都会面临信息过载。如果金融文档，比如收益报告和财务新闻，能通过摘要系统快速提取市场信号，那么分析师们将受益匪浅。
使用搜索引擎优化推广您的业务：搜索引擎优化（SEO）评估需要对竞争对手内容中讨论的话题有深入了解。考虑到谷歌最近的算法更改和对主题权威的强调，这一点至关重要。迅速总结几篇文档、识别共同点并扫描关键信息可能是一种强大的研究工具。

结论

尽管抽象摘要不如提取方法可靠，但它为产生与人类写作方式一致的摘要提供了巨大的潜力。因此，在这个领域可能涌现出大量的计算、认知和语言新技术。

参考文献

Source:
https://www.digitalocean.com/community/tutorials/extractive-and-abstractive-summarization-techniques