1.2 知识抽取的任务

知识图谱的数据来源可分为三类,分别是结构化数据,半结构化数据和非结构化数据。知识抽取的研究对象主要就是这三类数据。不同数据源所对应的知识抽取技术也不相同。

结构化数据

垂直领域的知识往往来源于支撑企业业务系统的关系数据库,如著名的关系数据库SQL Server, MySQL 。

半结构化数据

半结构化数据是一种特殊额结构化数据形式,但是其形式不符合关系数据库获其他形式的数据表形式结构,但又包含标签获其他标记来分离语义严肃并保持记录和数据字段的层次结构。自万维网出现以来,半结构化数据越来越丰富,全网文档和数据库不再是唯一的数据形式,因此半结构化数据也成为了知识获取的重要来源。目前,百科类数据、网页数据是可被用于知识获取的重要半结构化数据,本节将介绍面向此类数据的知识抽取方法。

非结构化数据

大量的数据以非结构化数据(即自然语言文本)的形式存在,如新闻报道、科技文献和政府文件等,面向文本数据的知识抽取一直是广受关注而问题,也是知识抽取任务的重点和难点。

从结构化数据中抽取知识

解决方案:复杂表结构的规则映射定义 难点:复杂表结构的知识抽取规则定义复杂

从半结构化数据中抽取知识

解决方案:包装器 难点:网站更新造成包装器失效

从文本中抽取知识

解决方案:信息抽取 难点:准确率与覆盖率

我们接下来分别从结构化,半结构化以及非结构化的数据组织形式出发,对知识抽取的进行详细的讲解。

Last updated