数据库技术信息与电脑China Computer&Communication2016年第13期大数据下的异构知识融合方法研究张 曦(国家新闻出版广电总局西安监测台,陕西 西安 710101)摘 要:首先给出了一个多源异构知识库的模型框架,然后具体介绍了资源描述框架RDF的概念以及RDF的基本数据的模型,并针对知识抽取分别从半结构化知识抽取和非结构化知识抽取这两方面做了深入研究,最后将抽取得到的知识存储为RDF/XML格式作为知识库,提出了构建RDF三元组的算法,并给出了知识库中部分知识的存储实例。关键词:大数据;知识融合;异构知识中图分类号:TP311.13 文献标识码:A 文章编号:1003-9767(2016)13-172-02大数据环境下,由于数据的结构差异大、数据来源广、也是一个能对结构化的元数据进行编码、交换和重用的体系价值密度较低、更新实时等特点,给知识服务带来了巨大挑框架,其数据模型包含三种对象模型,即资源、属性和陈述。战,而多源异构知识的融合为在大数据环境下进行知识获取、知识组织和利用提供了非常有效的手段和方法。1.2.2 知识抽取1 多源异构知识库的构建目前,对于知识抽取的研究很大一部分是对实体关系抽取的研究,被广泛研究的实体关系一般都是二元实体关系,1.1 多源异构知识库模型框架也就是包含两个实体以及它们之间关系的三元组,本文所指目前,大多数知识库都是针对某一特定领域构建的,由的实体关系就是二元实体关系,实体关系抽取按输入数据源于大数据环境下各种知识是异构的,因此,本文是通过从不的结构化程度可以分为结构化抽取、半结构化抽取和非结构同的知识来源来获取知识构建知识库,主要在知识获取、知化抽取。针对半结构化知识抽取,下面将分为两方面进行介识表示、知识存储和知识服务等方面对多源异构知识库的构绍。建进行研究,提出多源异构知识库的构建模型,如图1所示。第一,HTML树(DOM)。可以从网页中提取信息来分析DOM树。这些信息可以来自文本页面,也可来自“deep-Web”,其中数据存储在底层数据库,通过填写HTML表单查询。训练的分类在作为文本的情况下,除了得到DOM树的链接,还能够得到文本中两个实体特征。DOM树包含组成DOM-tree格式的信息,无论是在网页(如网页列表、Web表),还是在“deep-Web”源都能发现这样的信息。DOM树的结构暗示了实体之间的关系,下面为DOM树片断。
Birth | Tom Cruise Mapother IV 图1 多源异构知识库构建模型1962-07-03 1.2 异构知识的知识表示方法研究Syracuse, NY |
---|
它包含两个知识三元组:(Tom Cruise,birth 1.2.1 RDF数据模型date,7/3/1962)和(Tom Cruise,birth place,Syracuse NY)。第二,HTML表格(TBL)。在Web中有超过570M的描述Web资源的资源描述框架语言RDF(Resource 表包含关系信息。事实上,提取技术开发的文本和树并没有Description Framework)是Web数据集成的元数据解决方案,为表的工作提供很好的帮助,因为两个实体之间的关系通常作者简介:张曦(1983-),女,陕西西安人,本科,工程师。研究方向:云计算与大数据。 — 172 —信息与电脑2016年第13期China Computer&Communication数据库技术包含在列标题中,而不是在文本/树附近。使用下面的启发Resource xian=model.createResource(cityURI)来创建一个式方法来提取信息,首先命名实体间的联系,然后通过查看资源,其对应的URI为“http://www.city.com/xian”;用每一列中的实体表示,推理每一列可以对应哪些谓词关系,addProperty(VCARD.POPU, population)为资源增加相应的最后再通过匹配到游离碱,丢弃暧昧列。属性和客体(即属性的值);判断是否有存储文件可写,如典型的Web表格的每一行代表一个实体(即主体),每果没有的话,创建一个存储文件,然后用model.write(new 一列表示实体(即上游)的属性。包含两个三元组:(Top FileOutputStrean(File(文件路径)))来以RDF/XML的表示形Gun,Release year,1986)和(Top Gun,actor,Tom Cruise)。式输出本体到存储文件中。以百度百科网页上陕西省西安市2 知识存储部分信息为例,抽取百度百科信息盒中的知识,按照以上的利用关系型数据库来存储图数据的方法并不能从本质上算法,得到RDF三元组存储结果,存储结果片段如下所示:体现三元组之间的联系,同时对关系型数据库检索的SQL语言也无法很好地描述对图数据的检索。本文选择了一种更加
制地选择合适的格式来序列化。算法流程图如图2所示。西安Xi’an长安地级市中国西北地区新城区碑林区……未央区凤城八路未央广场……3 结 语本文对多源异构知识库的构建方法进行了研究,首先给出了一个多源异构知识库的模型框架,然后具体介绍了资源描述框架RDF的概念以及RDF的基本数据的模型,并针对知识抽取分别从半结构化知识抽取和非结构化知识抽取这两方面做了深入研究。最后将抽取得到的知识存储为RDF/XML格式作为知识库,提出了构建RDF三元组的算法,并给出了知识库中部分知识的存储实例。参考文献图2 构建RDF三元组算法流程图[1]H Kwak,C Lee,H Park,et al.What is Twitter,aSocial 新建类ReadFile,并使用new Vector
()新建对象Network or News Media?[A]//Proceedings of the 19th FileList,用来依次读取知识抽取后获得的文件;解析文件得International Conference on World Wide Web[C].2010:591-600.到想要的知识三元组的内容;用Model model=ModelFactory.[2]YY Ahn,JP Bagrow,S Lehmann.Link Communities createDefaultModel()模型工厂来创建一个本体模型;用Reveal Multiscale Complexity in Networks[J].Nature,2010,466(7307):761-7.— 173 —