4.2 自然语言处理基础

知识抽取基础方法

知识抽取的基础方法 主要包括以下几种:

  • 词典标引法

该方法旨在构造一个词典(主题词典、关键词词典等),然后设计相应算法与词典匹配,若匹配成功,则将其抽出作为文献的标引词。词典标引法在目前汉语自动标引中占据着主要地位,早期的自动标引试验大部分采取该方法。标引算法基本相同,但具体细节有所不同:有的采取最大匹配法,有的采取最小匹配法,有的采取切分抽词和综合加权确定标引词。

  • 切分标记标引法

该方法旨在将能够断开句子或表示汉字之间联系的汉字集合组合成切分标记词典输人计算机。切分标记词典有词首字、词尾字和不构成词的单字,也有人用表外字、表内字、非用字、条件用字等组成切分词典。当原文本被切分词典分割成词组或短语后,再按照一定的分解模式将其分成单词或专用词。

  • 单汉字标引法

该方法旨在在标引时将概念词拆分成单个汉字,以单个汉字作为标引词,采取后组方式,将检索词串分解成单个汉字,以逻辑乘关系进行组配,利用汉字索引文件实现自动标引和逻辑检索。

  • 词频统计标引法

该方法的理论基础是著名的Zipf定律,它建立在较成熟的语言学统计研究成果基础之上,具有一定的客观性和合理性,而且这种方法简单易行,因此在自动标引中占有较重要的地位。国内外很多公司曾使用这种方法进行标引试验,结果证明此法行之有效。词频统计方法要进一步发挥其功能,就必须融合其他因素,因此这种方法目前多被融合到其他标引方法中使用。在加权统计标引法中,从文献频率加权标引到词区分值,加权标引主要依赖于词的频率特征(标引词在某一特定文献中的出现频率或词的文献频率)和词的区分能力。上述两种方法的主要缺陷是与词的相关性无关。而词相关性加权标引法和价值测度加权标引法不仅考虑了词在某一特定文献或整个文献集合中的频率特征,而且考虑了标引词在相关文献集合和无关文献集合中的频率特征以及检索结果的效益值。理论和实践都证明这两种方法比前两种方法更有效。但这两种方法在实际应用中具有一定的局限性,权值函数中的R等值在标引之前是来知的,只能近似估计。

  • 句法分析标引法

基层结构的标引法将文献标题可能反映的主题内容归纳为有限的几种元素基本范畴,并使用简洁的句法规则,减少了句法分析的复杂性。数字化指示符和处理码标识的运用更方便了计算机的识别处理。但是这种方法在主题名称的范畴分析及主题标目的选择等方面需要较多的人工干预,影响了其自动标引的效率。另外,这种方法仅以文献标题为标引对象,虽然主题内容容易突出,但标题句法形式的规范性较差,增加了句法分析的难度,同时过窄的分析范围容易漏标一些相关主题。句法分析标引法获得的一些有效结果通常来自于一些特殊的小量样本,而在大量样本上的试验往往令人失望,最突出的问题是标引词词义的模糊性,而这一问题又是句法分析标引法本身难以解决的。因此,所有的句法分析必须辅以语义分析,才能保证自动标引的准确性。

  • 基于潜在语义分析的标引法

基于潜在语义分析的标引法通过单值分解,将词、文献和提问根据语义相关程度组织在同一空间结构中。在这一空间中,分散在不同文献和提问中的同义词相近放置,具有不同的词但主题语义接近的文献和提问相邻组织。因此,在文献和提问检索词不匹配的情况下,这种方法仍可以给出合理的检索结果,这一点显然是基于关键词的检索系统无法达到的。因为每个词在潜在语义空间中只有一个位置,所以这种标引法目前不适用于多义词。在简化的奇异值分解(Singular Value Decomposition,SVD)描述中,文献集合中一个含义模糊的词将被置于多个独特含义的矩心,这无疑会对检索产生负面影响。尽管这种方法还存在缺陷,但是许多人对其进行试验后认为,潜在语义分析标引法是一种很有希前景的方法。浯义矢量空间模型在现有的矢量空间模型基础上,融人格式语义结构,通过标引词的语义矢量构造描述文献的语义矩阵,使文献的标引得以在语言的深层结构一一一语义层上实现。相比句法分析标引法,语义分析标引法无论是使用范围还是实际的使用效果都明显优于前者。语义分析标引与人工智能标引的融合将是今后自动标引技术的研究方向。

  • 人工智能标引法

专家系统是人工智能应用在标引中的具体技术。专家系统的知识表示方法主要有产生式表示法、语义网络表示法和框架表示法。基于产生式表示法的JAKS系统,其规则具有统一的条件一行为表示形式,各自具有自己的功能,这使得知识容易被定义,也容易被理解。而且规则具有高度模块化的性质,系统对规则的定义、修改、扩充等操作可各自独立进行而不互相干扰。但因为规则之间不存在明显的相互作用,所以难以对规则库进行整体把握,这给规则库的一致性维护带来了困难。另外基于规则的推理缺乏必要的灵活性,难以应付复杂内容标引的变动推理方式的需求。尽管采用人工智能法进行自动标引比在相同专业领域中运用其他方法复杂,但人工智能标引法是真正从标引员思维的角度模拟标引员的标引过程的,这显然比被标引文献为出发点的其他自动标引方法更有希望获得理想的标引效果。

Last updated