趣文网 > 作文大全

自动生成文本摘要

2020-12-06 04:50:01
相关推荐

当我们浏览网站站点或搜索新闻的时候,经常能看到这样的题目:“BAT领头,市值8000亿……”、“删前速看!XXX视频流出”等,可是当我们点进去的时候,往往会发现,都是标题党,文章和内容完全不符合!如果这时候有一种工具能先替我们阅读新闻,再提炼出关键内容,那么我们肯定不会再受到标题党的影响,这对我们的生活无疑会有非常大的便利。而这需要的就是“文本摘要自动生成”技术!文本摘要充斥着我们生活的方方面面,新闻关键词的提炼是文本摘要;在像Google、百度等搜索引擎的结果同样需要文本摘要,目前的百度搜索摘要主要还是把关键词前后语句作为摘要,不能反映文章主要内容和关键词的相关度,该升级了。目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。

抽取式顾名思义,就是按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式则是计算机通读原文后,在理解整篇文章意思的基础上,按自己的话生成流畅的翻译。抽取式的摘要目前已经比较成熟,但是抽取质量及内容流畅度均差强人意。伴随着深度学习的研究,生成式摘要的质量和流畅度都有很大的提升,但目前也有一些问题,例如在文本长度太长的时候抽取内容不佳。

抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被业界广泛运用。大体思想是先去除文章中的一些停用词,什么是停用词呢?停用词可以是使用十分广泛,甚至是过于频繁的一些单词。比如英文的“I”、“is”、“a”、“the”,中文的“我”、“的”之类词几乎在每个文档上均会出现,查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果,难于缩小搜索范围提高搜索结果的准确性,同时还会降低搜索的效率。因此,在真正的工作中,搜索引擎会忽略掉特定的常用词,在搜索的时候,如果我们使用了太多的停用词,也同样有可能无法得到非常精确的结果,甚至是可能大量毫不相关的搜索结果。另外一种停用词是指文本中出现频率很高,但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。如常见的“的”、“在”、“和”、“接着”之类,比如“SEM分享是个关于SEM的博客”这句话中的“是”、“的”就是两个停用词。过滤掉停用词之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。再对上述得到的关键语句进行排序,便能得到文本中最核心的语句,也就是摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”,“孙悟空”这样的词汇都会通过切词,独立对待,无法建立文本段落中的完整语义信息。

生成式文本摘要主要依靠深度神经网络结构实现,2014年由GoogleBrain团队提出的Sequence-to-Sequence序列,开启了NLP中端到端网络的火热研究。Sequence-to-Sequence又称为编、解码器(Encoder、Decoder)架构。其中Encoder、Decoder均由数层RNN/LSTM构成,Encoder负责把原文编码为一个向量C;Decoder负责从这个向量C中提取信息,获取语义,生成文本摘要。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

妈妈夸我真懂事作文300字 第一次骑自行车作文500字 容易写的作文题目20个 20年后的我作文200字 以珍惜为话题的作文600字 快乐的元宵节作文300字 风景这边独好作文500字 最好的奖赏作文800字 我心目中的英雄作文400字 难忘的小学生活作文600字 以爱国为主题的作文800字 我不相信眼泪作文600字 关于中秋节的作文450字 描写端午节的小作文 老鼠的自述作文500字 校园安全在我心中作文 什么的那一刻作文600字 母爱一直都在作文600字 以生活为话题的作文600字 难忘的端午节400字作文 以sports为主题的英语作文 我渴望长大作文400字 生活需要宽容作文600字 有关端午的作文500字 旧事重提作文800字 我在挫折中成长作文600字 有什么真好作文400字 我的班主任我的班作文 关于中国传统节日的英语作文 我是个好孩子作文400字