💻
Knowledge Extraction - Concept and Techniques
  • 介绍
  • 第一章:知识抽取概述
    • 1.1 知识抽取的定义
    • 1.2 知识抽取的任务
    • 1.3 参考文献
  • 第二章:面向结构化数据的知识抽取
    • 2.1 规则映射
    • 2.2 R2RML
    • 2.3 D2RQ
    • 2.4 Ultrawrap
    • 2.5 Reference
  • 第三章:面向半结构化数据的知识抽取
    • 3.1 面向Web页面的知识抽取
    • 3.2 面向百科数据的知识抽取
    • 3.3 实战:使用Scrapy抓取百度百科数据
    • 3.4 参考文献
  • 第四章:面向非结构化数据的知识抽取
    • 4.1 非结构化知识抽取概述
    • 4.2 自然语言处理基础
    • 4.3 命名实体识别
    • 4.4 关系抽取
    • 4.5 事件抽取
    • 4.6 参考文献
  • 第五章:知识挖掘
    • 5.1 知识挖掘
    • 5.2 参考文献
  • 第六章:拓展研究
    • 6.1 跨语言知识抽取概述
    • 6.2 跨语言知识抽取
    • 6.3 XLore-跨语言知识图谱
    • 6.4 参考文献
Powered by GitBook
On this page

Was this helpful?

Edit on GitHub
  1. 第三章:面向半结构化数据的知识抽取

3.1 面向Web页面的知识抽取

互联网中蕴含着大量的数据资源,这些数据存在于html的代码之中,如何从浩瀚的代码中提取有效的数据,针对不同的情况,可以采用多种方法来实现网页数据的提取。

  • 手工方法

    • 手工方法的优点: 1. 对于任何一个网页都是通用的,简单快捷; 2. 能抽取到用户感兴趣的数据。

    • 手工方法的缺点: 1. 需要对网页数据进行标注,耗费大量的人力 2. 维护成本高; 3. 无法处理大量站点的情况。

  • 包装器

    • 包装器归纳的优点: 1. 需要人工标注训练集; 2. 能抽取到用户高兴取得数据; 3. 可以运用到规模不大网站的信息抽取。

  • 包装器归纳的缺点: 1. 可维护性比较差; 2. 需要投入大量的人力去做标注。

  • 自动抽取

    • 自动抽取的优点: 1 无监督的方法,无需人工进行数据的标注; 2 可以运用到大规模网站的信息抽取。

    • 自动抽取的缺点:

      1. 需要相似的网页作为输入;

      2. 抽取的内容可能无法达到预期,会有一些无关信息。

Previous第三章:面向半结构化数据的知识抽取Next3.2 面向百科数据的知识抽取

Last updated 1 year ago

Was this helpful?