在巨量的信息面前,很多信息是我们无法全面接收,因此我们需要从中筛选出一些我们感兴趣的或者有代表性的信息进行接收。那么这一个过程就是关键词提取技术。如果我们可以准确的将所有的文档都用几个简单的关键词描述,那么我们便可以通过关键词了解一篇文章的内容,这将会提高信息获取到效率。想要在海量的信息里提取出我们所需要的信息,就需要学会如何提取关键词。
一,TF-IDF算法(Term Frequency-Inverse Document Frequency,词频-逆文档频次算法)是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。这种思想是符合关键词抽取的需求,一个词语对文档越重要,那么是关键词的概率就越大,所以通常将TF-IDF算法应用在关键词提取中。
二,在上述的TF-IDF算法中,都需要基于一个现成的语料库,主题模型的关键词提取算法则是需要通过对大规模文档学习,发现文档的隐含主题。
三,而TextRank算法则是可以脱离语料库的基础,仅对单篇文档进行分析就可以提取该文档的关键词。这也是TextRank算法的重要特点。TextRank算法的基本思想源于Google的PageRank算法。因此这里需要先了解下PageRank算法。
“提取关键词”正确的方法是:先整体把握材料,用压缩语段的方法对材料进行压缩,提取出一句话;然后再对这句话进行压缩,提取关键词。
提取时,要注意以下三点:
一是筛选陈述的对象(主要概念或主要事件)或议论的中心观点。
二是要注意与归纳概括信息题的不同。
三是提取的关键性词语的答案一般就在所给语段中,不需要我们自己去概括,或者用我们的理解来替代本来就存在的关键信息;而概括信息大多数情况则是对所给信息进行分析、归纳、整合,在语言表述上,可以是所给语段中现成的关键性词语,也可以是高度概括了的能够替代原语言信息的词语。