3.1 面向Web页面的知识抽取

互联网中蕴含着大量的数据资源，这些数据存在于html的代码之中，如何从浩瀚的代码中提取有效的数据，针对不同的情况，可以采用多种方法来实现网页数据的提取。

手工方法
- 手工方法的优点： 1. 对于任何一个网页都是通用的，简单快捷； 2. 能抽取到用户感兴趣的数据。
- 手工方法的缺点： 1. 需要对网页数据进行标注，耗费大量的人力 2. 维护成本高； 3. 无法处理大量站点的情况。
包装器
- 包装器归纳的优点： 1. 需要人工标注训练集； 2. 能抽取到用户高兴取得数据； 3. 可以运用到规模不大网站的信息抽取。
包装器归纳的缺点： 1. 可维护性比较差； 2. 需要投入大量的人力去做标注。
自动抽取
- 自动抽取的优点： 1 无监督的方法，无需人工进行数据的标注； 2 可以运用到大规模网站的信息抽取。
- 自动抽取的缺点：
  1. 需要相似的网页作为输入；
  2. 抽取的内容可能无法达到预期，会有一些无关信息。

Last updated 2 years ago