3.1 面向Web页面的知识抽取

互联网中蕴含着大量的数据资源,这些数据存在于html的代码之中,如何从浩瀚的代码中提取有效的数据,针对不同的情况,可以采用多种方法来实现网页数据的提取。

  • 手工方法

    • 手工方法的优点: 1. 对于任何一个网页都是通用的,简单快捷; 2. 能抽取到用户感兴趣的数据。

    • 手工方法的缺点: 1. 需要对网页数据进行标注,耗费大量的人力 2. 维护成本高; 3. 无法处理大量站点的情况。

  • 包装器

    • 包装器归纳的优点: 1. 需要人工标注训练集; 2. 能抽取到用户高兴取得数据; 3. 可以运用到规模不大网站的信息抽取。

  • 包装器归纳的缺点: 1. 可维护性比较差; 2. 需要投入大量的人力去做标注。

  • 自动抽取

    • 自动抽取的优点: 1 无监督的方法,无需人工进行数据的标注; 2 可以运用到大规模网站的信息抽取。

    • 自动抽取的缺点:

      1. 需要相似的网页作为输入;

      2. 抽取的内容可能无法达到预期,会有一些无关信息。

Last updated